Веселые картинки.
По просту говоря, спэм в картинках, это когда открываешь сообщение, а там - картинки.
Точное определение должно быть дано в соответствии с тем насколько данное анти-спэмовое решение справляется с сообщениями, содержащими картинки. Здесь есть несколько вариантов:
- Все сообщение закодировано в HTML и не содержит собственно картинок. Оно содержит IMG-метки, и картинки загружаются в момент отображения.
- Сообщение закодировано в HTML, но IMG-метки ссылаются на что-то в "сыром" тексте сообщения. Т.е. в данном случае сама картинка доступна спэм фильтру, если он аккуратно пройдется по MIME-дереву.
- Картинка вмонтирована в тело сообщения через MIME
Ортогонально данной классификации может идти ей подобная. Разница будет в том, для чего используются картинки: для передачи собственно спэма (Виагра за гроши, вмонтировано в саму картинку) или для вполне невинной информации (эмблема компании).
Наша группа разработала способ "перемолки" картинок на основе технологии отпечатков пальцев. Картинки извлекаются, нормализуются, с них снимаются отпечатки и эти отпечатки добавляются к базе данных фильтра. Преимущество здесь в том, что небольшие (или даже не такие уж небольшие) изменения в картинках не повлияют на конечные отпечатки и нужный вердикт всегда гарантирован.
Эта технология хороша для поимки сообщений типа 3. Сообщения типа 1 и 2 с точки зрения фильтра являются в основном текстовыми. Пройдя через обычную систему машинного обучения и генерации базы данных фильтра, данные сообщения будут пойманы на основе их HTML данных или других текстовых характеристик. Даже сообщения 3го типа все же неплохо ловятся при подобной системе, поскольку проход по MIME-дереву перемалывает множество разных характеристик, хотя и без особой обработки нацеленной именно на картинки.
Хуже обстоят дела с решениями, основанными на человеческом вмешательстве. Фильтр, в основе которого лежат regular expressions, создаваемые на основе правил, замеченных в какой-то момент, неплохо ловит текстовой спэм, но совершенно пасует перед спэмом 3го типа. Exchange Hosted Services (не Exchange Server, распростроняемый через CD, a "виртуальный" Exchange Server, раньше - Front Bridge) будет первым клиентом машинной обработки картинок на основе вышеупомянутой технологии, именно по этой причине.