Welcome to TechNet Blogs Sign in | Join | Help

Веселые картинки.

По просту говоря, спэм в картинках, это когда открываешь сообщение, а там - картинки.

Точное определение должно быть дано в соответствии с тем насколько данное анти-спэмовое решение справляется с сообщениями, содержащими картинки. Здесь есть несколько вариантов:

  1. Все сообщение закодировано в HTML и не содержит собственно картинок. Оно содержит IMG-метки, и картинки загружаются в момент отображения.
  2. Сообщение закодировано в HTML, но IMG-метки ссылаются на что-то в "сыром" тексте сообщения. Т.е. в данном случае сама картинка доступна спэм фильтру, если он аккуратно пройдется по MIME-дереву.
  3. Картинка вмонтирована в тело сообщения через MIME

Ортогонально данной классификации может идти ей подобная. Разница будет в том, для чего используются картинки: для передачи собственно спэма (Виагра за гроши, вмонтировано в саму картинку) или для вполне невинной информации (эмблема компании).

Наша группа разработала способ "перемолки" картинок на основе технологии отпечатков пальцев. Картинки извлекаются, нормализуются, с них снимаются отпечатки и эти отпечатки добавляются к базе данных фильтра. Преимущество здесь в том, что небольшие (или даже не такие уж небольшие) изменения в картинках не повлияют на конечные отпечатки и нужный вердикт всегда гарантирован.

Эта технология хороша для поимки сообщений типа 3. Сообщения типа 1 и 2 с точки зрения фильтра являются в основном текстовыми. Пройдя через обычную систему машинного обучения и генерации базы данных фильтра, данные сообщения будут пойманы на основе их HTML данных или других текстовых характеристик. Даже сообщения 3го типа все же неплохо ловятся при подобной системе, поскольку проход по MIME-дереву перемалывает множество разных характеристик, хотя и без особой обработки нацеленной именно на картинки.

Хуже обстоят дела с решениями, основанными на человеческом вмешательстве. Фильтр, в основе которого лежат regular expressions, создаваемые на основе правил, замеченных в какой-то момент, неплохо ловит текстовой спэм, но совершенно пасует перед спэмом 3го типа. Exchange Hosted Services (не Exchange Server, распростроняемый через CD, a "виртуальный" Exchange Server, раньше - Front Bridge) будет первым клиентом машинной обработки картинок на основе вышеупомянутой технологии, именно по этой причине.

Published Friday, October 20, 2006 9:10 PM by borisk

Comments

# Вести с поля боя.

Wednesday, August 22, 2007 3:59 PM by Анти-спам (и анти-спэм)

Свежее... На прошлой неделе, глава нашего подразделения пригласил всех в бар неподалеку отметить историческую

Anonymous comments are disabled
 
Page view tracker