Антиспамовый фильтр (Sendmail + DrWeb + SpamAssassin)

Сообщение **setar** » 29 окт 2003, 13:46

Последнюю неделю усиленно работал над проблемой спама, уж ож очень спамеры активизировались нынче.

Пред история -
в нашей конторе стоит почтовый сервер который работает примерно на 20 пользователей.
На реальных юзеров сыплется почта с большого количества доменов. Последнее время из почтовых ящиков каждое утро стало выгребаться 200-300 спамовых писем, причем это как direct spam по БД так и тупой спам по ящикам типа info@домен , sales@домен и т.д.

Спам это плохо, потому что отнимает время, трафик да ещё в добавок у утра придаёт отрицательных эмоций...
кстати трафика на спам уходит каждый день несколько сотен МБ, что за месяц влетает в кругленькую сумму.

Так как исторически сложившимся почтовиком у нас работает sendmail, фильтрацию спама я решил реализовавать именно на нём, и отказываться от него только в случае невозможности решения поставленной задачи.

Итак, изучив основательно методы борьбы со спамом описаные в интернете я нашёл несколько решений которые можно разделить на группы:

Службы фильтрации, как правило платные, когда вы почту офиса заворачиваете на определённый адрес, а на ваш почтовик приходит уже "чистая" почта.
Этот метод я отмёл как слишком простой и неконтролируемый
Входные фильтры основаные на анализе ip адреса передающего хоста и использования общих баз данных ip спамеров (DNSBL).
Практически малоэффективный способ борьбы с современными методами спама, в данный момент эту функцию sendmail я отключил вовсе.
фильтрация на основе постоянного пополнения access листа адресами спамеров.
Использует встречный анализ подозрительности отправляющего хоста ( win|linux ; есть трояны| нет их ; уровень домена, наличие в имени домена ppp dialup и т.д.).
Пробовал применять. требуется постоянный контроль, тонкая правка ручками регулярных выражений и коэффициентов подозрительности.
Но самое плохое то что первое письмо от спамера этот фильтр пропускает по любому (т.к. работает на анализе лога), что делает его работу малоэффективной.
фильтрация по заголовкам писем с использованием очень продвинутого конфига sendmail. Хорошая статья по этому поводу http://www.anrb.ru/linux/regex.html
Использовал но получил много нареканий от коллег по сбоям в работе фильтра.
Требуется тонкая и вдумчивая подгонка регулярных выражений.
И наконец то решение на котором я остановиля - это применение внешних программ для анализа содержимого письма.
Программы проверки (их может быть несколько) сидят обычными демонами и принимают информацию от sendmail по механизму milter, возвращая в почтовик свою оценку и рекомендацию к дальнейшему действию.
По такому же принципу работает DrWeb Mail filter, его я тоже применяю для защиты от вирусов, почтовых бомб, и почтовых червей.
Программу для защиты от спама я использовал spamassassin http://www.spamassassin.org
Она имеет развутую систему контекстного лингвистического анализа, систему обучения и самообучения. Кроме того она может работать совместно с другими программами анализа.

Теперь собственно по прикручиванию spamassassin к sendmail.

Настройка Sendmail для работы с поддержкой milter

Здесь всё крайне просто: качаем последний дистрибут с www.sendmail.org распаковываем его, создаём в дистрибуте файл devtools/Site/site.config.m4 с содержимым:

Код: Выделить всё

APPENDDEF(`conf_sendmail_ENVDEF', `-DMILTER')
APPENDDEF(`confENVDEF',`-DMAP_REGEX')

первая строка включает механизм milter вторая позволяет использовать регулярные выражения в конфиге

Далее компилируем и инсталируем сам sendmail
#./Build && make all && make install
Для RedHat я подправил скрипт запуска (что то в оригинальном мне не понравилось) вот он, только проверте пути.

Файл конфигурации cf/cf/sendmail.mc (нужно создать) лежит здесь, объяснять все опции здесь я не буду, скажу лишь что подходит он для большинства офисных почтовиков фактически без изменений.
Уникальными и нестандартными здесь лишь расположение файла aliases (он вынесен в /etc/mail/), и изменённые названия директорий спулов (QUEUE_DIR и MSP_QUEUE_DIR) эти строчки можно просто закоментировать.

После пересборки конфига требуется перезапуск sendmail (проверяйте пути):

Код: Выделить всё

cd /usr/src/sendmail-8.12.10/cf/cf
rm -f sendmail.cf
make sendmail.cf
mv ./sendmail.cf /etc/mail/sendmail.cf
/etc/init.d/sendmail restart

Настройка DrWeb для работы по механизму milter

Последняя версия DrWeb под linux закачивается с сайта http://drweb.ru/unix/ от туда же загружается milter для sendmail (пакет drweb-sendmail-4.30-linux.tar.gz).
Сам drweb настраивается стандартным образом, обращаем внимание на то чтобы демон висел на 3000 порту:
drweb32.ini

Код: Выделить всё

SocketMode = TCP
DaemonPort = 3000

Далее настраиваем антивирусный milter (drweb_smf), который из себя представляет демона, который с одной стороны проверяет содержимое у drwebd с другой стороны выдаёт рекомендации почтовику.
я использую такие настройки drweb_smf.conf (я оставил только важные опции остальные по смыслу):

Код: Выделить всё

[DaemonCommunication]
Address = inet:3000@localhost
[Scanning]
SpamFilter = on
[Mailer]
MailSystem = Sendmail
Sendmail = /usr/sbin/sendmail
MilterAddress = inet:3001@localhost

кстати опция SpamFilter = on позволяет зарезать почтовых червей по заголовку письма

Как видим сам milter занимает 3001 tcp порт что и указывается при подключении в конфиге sendmail.

Разумным решением является запуск демона drweb и его milter`а (drwebd и drweb-smf) из одного стартового скрита что я и реализовал в этом файле

Установка spamassassin

Поскольку рускоязычных материалов по установке spamassassin я не нашёл описываю этот процесс :

Закачиваем последний дистрибутив с http://spamassassin.rediris.es/downloads.html далее распаковываем архив:
#tar -xvzf ./Mail-SpamAssassin-2.60.tar.gz

Добавляем перловый модуль для spamassassin:

Код: Выделить всё

        perl -MCPAN -e shell                    [as root]
        o conf prerequisites_policy ask
        install Mail::SpamAssassin
        quit

первоя строка запустит оболочку, последующие дадут команду обновить модуль (онлайн)

Далее пытаемся откомпилировать дистрибутив
#perl Makefile.PL
Скорее всего получаем кучу ошибок о отсутствующих модулях Perl
Вообще требуемые модули перечислены в INSTALL

Все перл модули добавляются в систему либо вышеописаным способом, либо качаются с http://search.cpan.org/ (там в поиске вводится название модуля например HTML::Parser)
дале каждый модуль собирается и инсталируется в систему:
#perl Makefile.PL && make test && make install

после установки всех модулей и компилируем и инсталируем саму программу spamassassin:
#perl Makefile.PL && make all && make install

Установка spamassassin milter

Его дистрибутив я нашёл на стороннем сайте http://savannah.nongnu.org/projects/spamass-milt ( если ссылка не работает можно взять здесь)

качаем его и устанавливаем, там всё просто

#tar -xvzf ./spamass-milter-0.2.0
#cd spamass-milter-0.2.0
#./configure ; make ; make install

Конфигурация и запуск spamassassin daemon + spammass-milter

Мой файл конфигурации лежит здесь, по умолчанию расположен в директории /etc/mail/spamassassin.
Документация по нему (англоязычная) есть здесь

Базы данных Баеса (результат обучения системы) я вынес в тот же каталог по умолчанию они лежат в ~/spamassassin

Самым сложным было понять как всё это запускается.
Переворошив документацию я написал стартовый скрипт
Строка запуска милтера (/usr/local/sbin/spamass-milter -f -p /var/run/spamass-milter -b setar@trinity.spb.ru -r 10) содержит параметры :
-f запустить в фоне
-b мыло куда пересылаем письма распознаные как спам, к оригинальному реципиенту письма не доходят. Чтобы они доходили и одновременно дублировались на ответственного ставится опция -B
-r 10 самая интересная опция

уровень баллов для режекта письма рекомендую в процессе обучения этот параметр не ставить вовсе.

Обучение системы

Вообще система начинает действовать сразу с заранее предустановленными параметрами и вылавливает спам с вероятностью 60-70% для того чтобы эту вероятность увеличить необходимо систему обучить - скормить ей более 200 писем с примерами "белых писем" ( ham ) и более 200 спамовых писем ( spam ).

Любое письмо после запуска системы получает в заголовок дополнительную информацию по анализу его на предмет спама:
(пример злобного спама, уровень признания письма как спам 5.0 )

Код: Выделить всё

X-Spam-Flag: YES
X-Spam-Status: Yes, hits=22.0 required=5.0 tests=BAYES_99,FORGED_MUA_OUTLOOK,
        FORGED_OUTLOOK_HTML,FROM_ILLEGAL_CHARS,HTML_FONTCOLOR_RED,
        HTML_FONTCOLOR_UNKNOWN,HTML_FONT_BIG,HTML_MESSAGE,MIME_HTML_ONLY,
        SUBJ_HAS_SPACES,SUBJ_ILLEGAL_CHARS autolearn=no version=2.60
X-Spam-Orig-To: <info@trinity.spb.ru>
X-Spam-Report: 
        *  4.1 SUBJ_HAS_SPACES Subject contains lots of white space
        *  0.1 HTML_FONTCOLOR_RED BODY: HTML font color is red
        *  5.4 BAYES_99 BODY: Bayesian spam probability is 99 to 100%
        *      [score: 1.0000]
        *  0.1 HTML_FONTCOLOR_UNKNOWN BODY: HTML font color is unknown to us
        *  0.3 MIME_HTML_ONLY BODY: Message only has text/html MIME parts
        *  0.1 HTML_MESSAGE BODY: HTML included in message
        *  0.3 HTML_FONT_BIG BODY: HTML has a big font
        *  3.9 SUBJ_ILLEGAL_CHARS Subject contains too many raw illegal characters
        *  4.1 FROM_ILLEGAL_CHARS From contains too many raw illegal characters
        *  2.6 FORGED_MUA_OUTLOOK Forged mail pretending to be from MS Outlook
        *  1.0 FORGED_OUTLOOK_HTML Outlook can't send HTML message only
X-Spam-Level: *********************
X-Spam-Checker-Version: SpamAssassin 2.60 (1.212-2003-09-23-exp) on 
        gw.trinity.spb.ru

Оценка BAYES появляется после полного обучения системы.

Теперь как учить - в комплекте есть программа sa-learn ей нужно скормить каталог с письмами ham и spam

сами письма нужно иметь в немодивицированном виде (без forward`а и прочих почтовых пересылок перенаправлений)
я их получал прямым экспортом из программы TheBat в формат .MSG
для удобства завёл специальные папочки в которых скидывал примеры писем, а в конце дня делал экспорт на сервер.

Для процесса обучения не требуется восстанавливать оригинальный заголовок письма вырезая пометку ****SPAM**** и оценочное содержимое заголовка, система их просто игнорирует.

Для автоматизации процесса обучения я написал маленький скриптиккоторый забирает файлы сообщений с файлового сервера по ftp и скармливает их обучалке.

Обучение до включения в работу системы Баеса у меня заняло 4 дня.

Фуххх вроде всё. будут вопросы - пишите помогу.

Kuks OFF · Сообщение **Kuks OFF** » 30 окт 2003, 21:11

На сколько я понял весь траффик от спама остается. Т.е да, спам мы отрубаем для конечного пользователя, но объем принимаемой почты не уменьшаем. Так ?

Т.к судя по статье знание sendmail великое, хотелось проконсультироваться, а именно:

Используя в sendmail следующие вещи:
FEATURE(`dnsbl')
FEATURE(`access_db',`hash -T<TMPF> /etc/mail/access')dnl

Получаю, что какая-то часть спама не доходит до пользователе. Но есть задача, чтобы на один из адресов проходила вся почта вместе со спамом.

То есть, если на адрес user1@mydomain.ru приходит спам, то и хорошо, а если приходит на user2@mydomain.ru, user3@mydomain.ru и .т.д. то его отрубает. В текущей конфигурации отрубает для user1,user2,user3. Не могу додуматься как это организовать. Нет ли советов как это сделать ?

Сообщение **setar** » 31 окт 2003, 11:38

Kuks OFF писал(а):На сколько я понял весь траффик от спама остается. Т.е да, спам мы отрубаем для конечного пользователя, но объем принимаемой почты не уменьшаем. Так ?

Нет не так, он конечно не исчезает, но уменьшается здорово, за счёт того что некоторые письма отвергаются уже на стадии передачи заголовка, отправляющему мылеру просто приходит DSN (механизм ответа такой) сообщение что мол нам такого добра не надо.

Т.к судя по статье знание sendmail великое, хотелось проконсультироваться, а именно:

отнюдь не великое, там ещё до дури сколько разбираться можно,
одни правила перезаписи чего только стоят!

Используя в sendmail следующие вещи:
FEATURE(`dnsbl')
FEATURE(`access_db',`hash -T<TMPF> /etc/mail/access')dnl

Получаю, что какая-то часть спама не доходит до пользователе. Но есть задача, чтобы на один из адресов проходила вся почта вместе со спамом.

То есть, если на адрес user1@mydomain.ru приходит спам, то и хорошо, а если приходит на user2@mydomain.ru, user3@mydomain.ru и .т.д. то его отрубает. В текущей конфигурации отрубает для user1,user2,user3. Не могу додуматься как это организовать. Нет ли советов как это сделать ?

В access добавляем одну из конструкций

Код: Выделить всё

To:user3@mydomain.ru   OK

если знаем от кого пишем 
From:111.222.333.444 OK
From:@frienddomain.ru OK

а вобще хорошо когда домен описан в virtusertable:

user1@mydomain.ru  user1
user2@mydomain.ru  user2
user3@mydomain.ru  user3
@mydomain.ru  error:nouser 550 No such user here

Так я получал почту когда наш московский офис записали ordb.

Сообщение **art** » 31 окт 2003, 12:37

предостерегаю пользователей сендмыла от использования связки
drweb 4.30 + drweb-milter 4.30.

стабильный набор это либо
демон 4.29.5 с соотв. клиентом + триальный ключик от 4.30 (ключ 4.29 истек 29.10.2003),
либо 4.30 + клиент 4.29.12.F

Сообщение **setar** » 31 окт 2003, 12:42

art писал(а):предостерегаю пользователей сендмыла от использования связки
drweb 4.30 + drweb-milter 4.30.

стабильный набор это либо
демон 4.29.5 с соотв. клиентом + триальный ключик от 4.30 (ключ 4.29 истек 29.10.2003),
либо 4.30 + клиент 4.29.12.F

Хм, а в чём трабл ? ....
Я даже не знаю что у меня сейчас работает - там же autoupdate, который и *.dll обновляет ...

Kuks OFF · Сообщение **Kuks OFF** » 31 окт 2003, 17:32

Спасибо за ответ.
Конструкция

To:user3@mydomain.ru OK

К сожалению я уже ее пробовал, она не срабатывает, не знаю почему.
А вот конструкция
From:user3@mydomain.ru REJECT
Срабатывает замечательно.

То есть если у меня в файле access написано:
From:user1@mydomain.ru REJECT
To:user2@mydomain.ru OK
и при этом я отправляю письмо с адреса user1@mydomain.ru на адрес user2@mydomain.ru то получаю запрет от sendmaila. Строки местами менял, не помогло

. Вот думаю может конструкции Connect,From,To надо в sendmail.cf гдето включить ....

Сообщение **art** » 31 окт 2003, 18:13

setar писал(а): Хм, а в чём трабл ? ....
Я даже не знаю что у меня сейчас работает - там же autoupdate, который и *.dll обновляет ...

Проблема не в демоне а в мильтер-клиенте 4.30

И на форуме сильно плакался народ: вырезались некоторые аттачменты.

Вот официальный ответ данный вчера:
30/10/2003 20:42)

>нужны исходники клиента.
>Смотрим на ftp.drweb.ru
>Варианты:
>4.29.12-F
>4.30
>Что рекомендуется?

Смотря для чего, если НЕ sendmail то можно взять 4.30, а еще
можно подождать 4.30.1 (он в бетах).

Kuks OFF · Сообщение **Kuks OFF** » 01 ноя 2003, 19:04

Привет.
Попробовал я поднять spamassassin daemon + spammass-milter + sendmail на FreeBSD 5.1 по твоей статье. Получилось достаточно интересно. Вроде все запускается без ошибок, но похоже письма не проходят из sendmaila в spamassassin.
Интересно где могут быть грабли ?

Kuks OFF · Сообщение **Kuks OFF** » 02 ноя 2003, 14:49

Спасибо, грабли я нашел, так что все заработало.
Теперь можно утверждать что связка spamassassin daemon + spammass-milter + sendmail работает и на FreeBSD 5.1

Сообщение **setar** » 04 ноя 2003, 11:57

Поправочки для себя (на память).

Autowhitelist начинает работать лишь на обученой системе при условии запуска spamd с ключиком -a

Сообщение **setar** » 05 ноя 2003, 13:18

Нашёл досадную ошибку в порядке подключения проверяющих программ. Нужно чтобы было так :

Код: Выделить всё

dnl# DRWEB , SpamAssassin
INPUT_MAIL_FILTER(`spamassassin', `S=local:/var/run/spamass-milter, F=T, T=C:15m;S:4m;R:4m;E:10m')dnl
INPUT_MAIL_FILTER(`drweb-filter', `S=inet:3001@127.0.0.1, F=T, T=C:1m;S:5m;R:5m;E:1h')
define(`confMILTER_MACROS_CONNECT',`b, j, _, spamd, lo, 127.0.0.1')dnl
define(`confMILTER_LOG_LEVEL',`6')

В исходном варианте первым включался DrWeb который проверял письмо только полностью его приняв - (не было экономии трафика).

P.S. Ошибку нашёл сам анализируя причины не_уменьшения трафика.

выходит документацию читать хорошо, а а вот следовать ей буква в букву не есть правильно - нужно думать.

Kuks OFF · Сообщение **Kuks OFF** » 11 ноя 2003, 18:20

В продолжение темы вопрос:

Часьтенько приходят письма с корявой кодировкой. Но это нужные письма. Письма со спамом обычно в кодировке не ошибаются.

Соответственно, получаем например хорошее письмо с неправильно указанной кодировкой:

-1.4 BAYES_20 BODY: Bayesian spam probability is 20 to 30%

4.1 FROM_ILLEGAL_CHARS From contains too many raw illegal characters

3.9 SUBJ_ILLEGAL_CHARS Subject contains too many raw illegal characters

4.1 BODY_ILLEGAL_CHARS Subject contains too many raw illegal characters

Общий бал получается 10,7 то есть можно сказать спам.

И второй вариант когда письмо заведомо спам, но с кодировками все в порядке. Например:

5.4 BAYES_99 BODY: Bayesian spam probability is 99 to 100%

Общий бал 5.4, то есть почти не спам

Вопрос - можно ли поменять веса ошибок ? То, есть основной упор сделать на BAYES. На сколько я понял, по умолчанию, оценка баеса от -4.9 до 5.4 можно ли ее сделать например от -10 до 10 ? А ошибкам вида BODY_ILLEGAL_CHARS уменьшить вес до 1, например ? Я в документации по конфигу поковырялся, но все же не врубился, т.к. английский далеко не первый мой язык

.

P.S.
Подтверждаю:

предостерегаю пользователей сендмыла от использования связки
drweb 4.30 + drweb-milter 4.30.

В один из не понятных моментов выдавалась ошибка такого типа
Nov 7 18:02:34 ns drweb-smf: drweb_smf.c(667) - FATAL ERROR: cannot extract private data from context

И это при том, что отправлялось два одинаковых письма. Одно проходило, а второе нет.
Так почту переглючило, что еле спасся от разгневанного начальства.

Сообщение **setar** » 12 ноя 2003, 10:07

Kuks OFF писал(а):Часьтенько приходят письма с корявой кодировкой. Но это нужные письма. Письма со спамом обычно в кодировке не ошибаются. Соответственно, получаем например хорошее письмо с неправильно указанной кодировкой:

-1.4 BAYES_20 BODY: Bayesian spam probability is 20 to 30%

4.1 FROM_ILLEGAL_CHARS From contains too many raw illegal characters

3.9 SUBJ_ILLEGAL_CHARS Subject contains too many raw illegal characters

4.1 BODY_ILLEGAL_CHARS Subject contains too many raw illegal characters

Общий бал получается 10,7 то есть можно сказать спам.

Тут стоп нужно прочесть доки, по памяти мне кажется что события типа ILLEGAL_CHARS наступают при появлени в заголовке письме полей не кодированного в base64 или квотированного вида. То есть в русскоязычном варианте это событие наступает почти всегда (Анализируется появление в полях любых символов кроме цифр и латиницы).
С этим я тоже столкнулся, веса меняются следующим образом (в local.cf) :

Код: Выделить всё

score FROM_ILLEGAL_CHARS                1.5
score HEAD_ILLEGAL_CHARS                1.5
score SUBJ_ILLEGAL_CHARS                1.5

И второй вариант когда письмо заведомо спам, но с кодировками все в порядке. Например:

5.4 BAYES_99 BODY: Bayesian spam probability is 99 to 100%

Общий бал 5.4, то есть почти не спам

Вопрос - можно ли поменять веса ошибок ? То, есть основной упор сделать на BAYES. На сколько я понял, по умолчанию, оценка баеса от -4.9 до 5.4 можно ли ее сделать например от -10 до 10 ? А ошибкам вида BODY_ILLEGAL_CHARS уменьшить вес до 1, например ? Я в документации по конфигу поковырялся, но все же не врубился, т.к. английский далеко не первый мой язык .

Да мысль о увеличении значимости оценки Баеса меня посещала,
ближайшее время попробую найти метод как это сделать.

Kuks OFF · Сообщение **Kuks OFF** » 12 ноя 2003, 10:45

Спасибо за ответ, он меня натолкнул на место поиска

Рекомендую заглянуть:

http://spamassassin.org/tests.html

Там все тесты и их имиена, очки к которым похоже можно поменять

Сообщение **setar** » 12 ноя 2003, 10:55

Именно Вы сами ответили на свой вопрос, да и мне помогли
вот параметры для тюнинга оценки Баеса

Код: Выделить всё

body   Bayesian spam probability is 0 to 1%  BAYES_00  0 0 -4.901 -4.900  
body   Bayesian spam probability is 1 to 10%  BAYES_01  0 0 -0.600 -1.524  
body   Bayesian spam probability is 10 to 20%  BAYES_10  0 0 -0.734 -0.908  
body   Bayesian spam probability is 20 to 30%  BAYES_20  0 0 -0.127 -1.428  
body   Bayesian spam probability is 30 to 40%  BAYES_30  0 0 -0.349 -0.904  
body   Bayesian spam probability is 40 to 44%  BAYES_40  0 0 -0.001 -0.001  
body   Bayesian spam probability is 44 to 50%  BAYES_44  0 0 -0.001 -0.001  
body   Bayesian spam probability is 50 to 56%  BAYES_50  0 0 0.001 0.001  
body   Bayesian spam probability is 56 to 60%  BAYES_56  0 0 0.001 0.001  
body   Bayesian spam probability is 60 to 70%  BAYES_60  0 0 1.789 1.592  
body   Bayesian spam probability is 70 to 80%  BAYES_70  0 0 2.142 2.255  
body   Bayesian spam probability is 80 to 90%  BAYES_80  0 0 2.442 1.657  
body   Bayesian spam probability is 90 to 99%  BAYES_90  0 0 2.454 2.101  
body   Bayesian spam probability is 99 to 100%  BAYES_99  0 0 5.400 5.400

Антиспамовый фильтр (Sendmail + DrWeb + SpamAssassin)

Антиспамовый фильтр (Sendmail + DrWeb + SpamAssassin)

WARNING!!

Re: WARNING!!

Re: WARNING!!

Кто сейчас на конференции