SmartScreen® — это больше не только экран против спама. Последнее обновление Hotmail использует SmartScreen для автоматической классификации более чем миллиарда писем ежедневно. Например, автоматическое присвоение категорий новостным рассылкам спасает огромное количество времени, поскольку такой тип писем составляет как минимум четверть сообщений в среднем почтовом ящике.

Давайте посмотрим, каким образом нам удалось обучить SmartScreen работать не только со спамом, но еще и с особым типом “серой” почты – информационным бюллетенями, и как это помогает пользователям бороться со спамом и управлять “серой” почтой.

image

Когда спам составлял 30%, наша цель была вполне ясна – наш враг, умный и беспощадный, должен был быть побежден. Мы провели огромную работу с фильтром SmartScreen и сократили количество спама до исторически низкого уровня в 3% и ниже.

После того, как удалось перевести спам на управляемый уровень, мы обратили внимание на оставшуюся часть ящика и были, мягко говоря, удивлены.

image

Можно с легкостью определить, какие письма являются персональными, а какие - спамом. Практически всё остальное мы назвали “серой” почтой, и поиск алгоритмов работы с такими сообщениями привел к пониманию, что такую почту нельзя просто принять или отклонить. В отличие от спама, от которого все хотят избавиться, нет стандартного действия в отношении “серой” почты.

Основным решением этой проблемы мы видим внедрение функций, которые позволяют управлять “серой” почтой, таких как: “Очистка”, “Планирование очистки”, “Выборки” и другие расширения.

Однако такие мощные инструменты требуют постоянного развития, а также вашего участия в определении сообщений. Мы знаем, насколько вы загружены в реальной жизни, поэтому постарались предоставить дополнительные возможности.

Автоматическое определение “серой” почты

Основная идея – это определить тип сообщения до того, как вы увидите его в своем ящике, а также выполнить специальные действия, где это применимо. Разумеется, базовая идея не нова. SmartScreen уже классифицирует и отмечает письма как содержащие спам и/или вредоносный контент сообщения, позволяя системе доставки сообщений принять решение о способе обработки.

Например, в зависимости от степени угрозы, которую может нести сообщение, SmartScreen может принять решение:

  • доставить сообщение от вашего знакомого во “Входящие”, но позволить вам решить, хотите ли вы посмотреть сообщение целиком [1];
  • пометить сообщение как спам и доставить его в папку “Нежелательная почта”;
  • отклонить сообщение, которое содержит опасный код или пришло от заведомо ненадежного отправителя.

Мы накопили серьезный опыт в борьбе со спамом, и поскольку инфраструктура уже была подготовлена, осталось только применить эти знания к решению задачи управления “серой” почтой. Благодаря возможности автоматической классификации “серой” потенциал улучшения всех предлагаемые инструменты стал довольно высоким. Осталось выбрать отправную точку.

image

Взгляд на долю “серой” почты в почтовом ящике (целых 82%!) открыл несколько вещей. Во-первых, участие в социальных сетях за последние несколько лет действительно стало важной частью практически каждого пользователя Интернета, и почтовые уведомления из Facebook, Twitter и других популярных сайтов стали большой частью почтовых ящиков. К счастью, большинство отправителей в этой категории хорошо известны, и не часто меняют адреса, поэтому их достаточно легко определить. Поэтому в прошлом обновлении Hotmail мы ввели категорию “Социальные оповещения”.

Однако существует и другая категория, крайне распространенная и активная, которая полностью затмила социальные оповещения – до 50% среднестатистического ящика!

Ежедневно почтовые ящики пользователей наполняются сообщениями от тысяч различных магазинов, клубов, обществ, учебных заведений, скидочных сервисов, рассказывающих о замечательных вещах, которые люди должны купить, сделать или посмотреть. Мы называем эту категорию “серой” почты информационными бюллетенями.

Информационные бюллетени отличаются от уведомлений из Facebook и Twitter, которые всегда приходят с одного адреса, всегда выглядят одинаково и содержат практически одинаковый контент. Они могут существенно различаться – ведь каждый может посылать сообщения, содержащие новости, а сами сообщения могут быть разного формата и контента.

Исходя из этого, нам пришлось применить несколько иной подход, нежели в отношении к социальным оповещениям. И поскольку различие – это характерная черта всех остальных категорий “серой” почты, мы постарались разработать более универсальный инструмент.

Создание фильтра информационных бюллетеней

Чтобы научить Hotmail отделять информационные бюллетени, мы начали с составления характеристик новостных сообщений и разработали ПО для отделения таких писем из всего потока электронной почты. Список определяет признаки, отличающие новостные письма от всех остальных: специальный заголовок List-Unsubscribe, адрес отправителя и контент письма.

Определившись со списком критериев, мы создали тестовый набор из 10 тысяч писем, в который входили как информационные бюллетени, так и другие типы писем.

Используя технику машинного обучения мы довели модель распознавания типа письма до допустимого уровня надежности. Поскольку тестовый набор был отобран случайным образом, качество работы фильтра в “реальном мире” будет близким. Как только мы добились определения большинства писем, в сентябре 2011-го мы запустили внутренний пилот (“dogfood”).

Внутреннее тестирование

Внутреннее тестирование (“Dogfooding”) – это процесс тестирования нового программного обеспечения нашими сотрудниками с реальными адресами, который критически важен для определения и решения проблем с фильтром. Мы предоставили сотрудникам, участвующим в программе, способ обратной связи, похожий на тот, который используется для сообщения о спам-письмах, пробравшихся через фильтр. Мы потратили несколько недель на анализ ошибок и настройку модели.

Например, основная проблема была в том, что финансовые организации отправляли все свои письма с одного домена, и зачастую использовали стиль текста, очень похожий на информационные бюллетени, таковыми не являясь. Поскольку такие сообщения крайне важны, мы решили, что лучше оставить их без категории, чем случайно поместить их в категорию “Информационные бюллетени”.

Насколько хорошо все работает?

В общем случае спамеры не сильно разборчивы, и не сильно заботятся о том, пошлют ли они вам сотни предложений часов Rolex, дешевых кредитов или лекарственных препаратов. С небольшими различиями практически все получают одинаковый спам. “Серая” почта, напротив, сильно зависит от того, чем вы занимаетесь в Интернете, и поэтому ящики разных пользователей могут быть похожи друг на друга по соотношению писем, но сами письма могут отличаться довольно существенно.

Фильтр информационных бюллетеней разработан таким образом, чтобы качественно фильтровать сообщения в среднестатистическом ящике. Однако мы смотрим дальше. Большинство новостных сообщений отправляются в будни; около 1,5 миллиарда новостей рассылается ежедневно; такие письма составляют около половины писем, поступающих на наши сервера. Это составляет 73% процента информационных бюллетеней в стандартном почтовом ящике (36% всех писем), и когда мы предполагаем, что письмо – это на самом деле информационная рассылка, мы угадываем в 97% случаев.

image

Правильная работа позволяет вам отфильтровать или очистить такие сообщения, что означает освобождение времени на чтение и ответы на письма, вместо траты его на организацию.

Используя функцию “Категории” Hotmail, вы можете изменить категоризацию сообщения – например, включить или отключить фильтрацию его как информационного бюллетеня. Это формирует информационную базу, на которой обучается фильтр, что позволяет исправить предыдущие ошибки и предотвратить будущие. Это означает, что правила применяются не только к существующим сообщениям, но и ко всем новым. SmartScreen обучается в процессе использования, благодаря чему пользователи выигрывают от качественной фильтрации.

Что дальше?

Теперь, когда фильтр информационных сообщений доступен всем пользователям, мы продолжим разработку новых категорий и функций, которые предоставят вам дополнительные инструменты для управления почтой. В настоящий момент мы работаем над задачей эффективного отображения и управлениями чеками, банковскими выписками и прочими финансовыми документами. Мы надеемся, что фильтр информационных бюллетеней станет для вас полезным инструментом в борьбе с “серой” почтой. Мы всегда рады вашим комментариям. Спасибо за использование Hotmail!

by Dick Craddock, Group Program Manager Hotmail

Оригинал записи: http://windowsteamblog.com/windows_live/b/windowslive/archive/2012/01/13/now-smartscreen-automatically-identifies-more-than-one-billion-newsletters-every-day.aspx


[1] Примечание: Мы обновим эту функцию в ближайшем выпуске Hotmail: будет использоваться репутация домена для классификации писем, снижая нагрузку на пользователей.