Spamassassin пропускает много спама

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
vovabob
Junior member
Сообщения: 18
Зарегистрирован: 30 июл 2008, 11:18
Откуда: стерлитамак
Контактная информация:

Spamassassin пропускает много спама

Сообщение vovabob » 16 июн 2009, 08:23

Подскажите, пожалуйста кто в этом дока!
Subj, хотя в байесовской базе уже около 3,5 тысяч писем, однако много спама не получает нужного количества баллов, куча таких писем пролетает с набранным баллом от 2,9 до 3,5....
Файлы .cf пытался подменить другими, выкачанными из инета, эффекта это не дало.
Конечно предвижу ответы типа вручную переопределить баллы по тестам, но как и по каким тестам, себе не представляю. Может есть какие-нибудь рекомендации по этой проблеме?...

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Re: Spamassassin пропускает много спама

Сообщение and3008 » 16 июн 2009, 12:10

бейсовский алгоритм работает на статистическом анализе. 4-5 тысяч - это довольно не много. Надо бы 10-20 тысяч. А лучше тысячу.

Либо наберите сколько спама и столько же полезной почты и скормите как spam и ham, либо ждите пока накопится достаточная статистика. За месяц может набежать, если у вас много пользователей.

Ну как самый последний вариант - пользуйтесь коммерческой системой.

Аватара пользователя
diz
Advanced member
Сообщения: 1189
Зарегистрирован: 12 янв 2009, 12:09
Откуда: Пермь

Re: Spamassassin пропускает много спама

Сообщение diz » 16 июн 2009, 12:18

Я не знаю, что такое spamassasin, но могу точно сказать, что большая часть спама отфильтровывается по проверке mx\ptr. У Вас эта часть проверок нормально настроена?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение Stranger03 » 16 июн 2009, 14:56

vovabob писал(а):Может есть какие-нибудь рекомендации по этой проблеме?...
Для начала можно опубликовать здесь пару заголовков письма, чтобы посмотреть чего у вас там.

vovabob
Junior member
Сообщения: 18
Зарегистрирован: 30 июл 2008, 11:18
Откуда: стерлитамак
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение vovabob » 17 июн 2009, 08:02

Stranger03 писал(а):Для начала можно опубликовать здесь пару заголовков письма, чтобы посмотреть чего у вас там.
Вот один очень типичный заголовок, точнее вырезка из него.
--------------------------------------------------------------------------------
Received: from 190.87.25.92 by server500.appriver.com; Tue, 16 Jun 2009 21:30:21 -0600
From: =?koi8-r?B?5sXEz9I=?= <gsvb@brandid.com>
To: <rjakshina@strtn.ru>
Subject: =?koi8-r?B?8NLPxMHA1NPRIDMgwdfUzy3Nz8rLySDtz9PL18Eg?=
Date: Tue, 16 Jun 2009 21:30:21 -0600
MIME-Version: 1.0
Content-Type: text/plain;
charset="koi8-r"
Content-Transfer-Encoding: 8bit
X-Mailer: Microsoft Office Outlook, Build 11.0.5855
Thread-Index: Aca6QDQAT1ELBNVKVLZX19DCKKR35V==
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.4400.3495
Message-ID: <01c9eec9$a6bcfb90$5c1957be@gsvb>
X-Virus-Scanned: ClamAV using ClamSMTP
X-Spam-Level: ***
X-Spam-Status: No, score=3.5 required=4.5 tests=BAYES_99 autolearn=disabled
----------------------------------------------------------------------------------
Похоже тут срабатывает только один тест BAYES_99, который дает 3,5 балла. Не далее как вчера я пытался задрать score BAYES_99 до 5 (выше требуемого порога), но в спам стали попадать и нужные письма.
Выход только sa-learn --ham для каждого такого письма? Вообще я и хотел бы узнать какие-то рекомендации по переопределению этих тестов.

PS: куча писем с некорректными заголовками, доменами и т.п. отсекается самим Postfix-ом (до 60% всей входящей почты)

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение Stranger03 » 18 июн 2009, 09:26

vovabob писал(а):X-Spam-Status: No, score=3.5 required=4.5 tests=BAYES_99 autolearn=disabled
Сюда добавляются только те позиции, которые участвуют в расчете счетчиков. Покажите ваши конф.файлы.

vovabob
Junior member
Сообщения: 18
Зарегистрирован: 30 июл 2008, 11:18
Откуда: стерлитамак
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение vovabob » 19 июн 2009, 12:37

Stranger03 писал(а):Сюда добавляются только те позиции, которые участвуют в расчете счетчиков. Покажите ваши конф.файлы.
trusted_networks 192.168/16 127/8 89.179.146.68 89.189.131.27

lock_method flock

# whitelist
whitelist_from *@tnh.ru
whitelist_from *@pvx.ru
whitelist_from localhost
whitelist_from valsol@sympatico.ca
whitelist_from neftis@uns.ufanet.ru
whitelist_from stolyarova@hppgroup.ru
whitelist_from savoi-kislota@rambler.ru
whitelist_from Amirova_L@kostanay.railways.kz
whitelist_from *@soda.ru
whitelist_from *@kaus.ru

rewrite_header Subject ****SPAM****

required_score 4.5
use_bayes 1
bayes_auto_learn 0

bayes_file_mode 0660
bayes_learn_to_journal 1

skip_rbl_checks 0
use_razor2 0
use_dcc 0
use_pyzor 0
always_add_report 1
report_safe 0

use_auto_whitelist 0
bayes_min_ham_num 1
bayes_min_spam_num 1

ok_languages ru
ok_locales en ru
report_charset windows-1251
lang ru

score BAYES_80 2.5
score BAYES_90 3.0
score BAYES_99 3.5

timelog_path /var/log/spam.log
bayes_path /etc/mail/spamassassin/bayes
auto_whitelist_path /var/spool/spamassassin/auto-whitelist
check_mx_delay 5

Вот local.cf. Тесту BAYES_99 было приписано 3.5 балла, именно столько такие письма и получали. Вчера вечером сделал score BAYES_99 4.5, как раз - порог срабатывания. Весь спам ушел, но как я и говорил, нужные письма стали ложно отбраковываться как спам. Решил некоторое время понаблюдать и делать для ложных срабатываний sa-learn --ham....
PS: как работает sa-learn --ham? Дает минус сколько-то баллов для письма с таким контентом? Минус сколько и где это можно увидеть?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение Stranger03 » 22 июн 2009, 12:03

vovabob писал(а):bayes_min_ham_num 1
bayes_min_spam_num 1
По этим цифрам у вас письмо попадает сразу в базу спама и не спама. Вы уж определитесь, куда что отсылать. Думаю вам надо насобирать по 300-400 писем в оба каталога, прибить базу баеса, создать заново, натравить на базу эти письма. А эти цифры скорректировать.

vovabob
Junior member
Сообщения: 18
Зарегистрирован: 30 июл 2008, 11:18
Откуда: стерлитамак
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение vovabob » 23 июн 2009, 09:02

Stranger03 писал(а):
vovabob писал(а):bayes_min_ham_num 1
bayes_min_spam_num 1
По этим цифрам у вас письмо попадает сразу в базу спама и не спама.
:shock: Что-то я не въехал... По докам эти правила описывают минимальное количество писем в базе, после которого spamd начинает использовать байесовский анализатор. То бишь использовать байес, если в базе уже есть хотя бы по по одному письму spam и ham, а к попаданию нового письма в базу вроде как они отношения никакого не имеют

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение Stranger03 » 23 июн 2009, 09:26

vovabob писал(а): :shock: Что-то я не въехал...
Э, да, точно так. Однако мое предложение по переобучению спамера остается открытым.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение Stranger03 » 23 июн 2009, 09:40

Лучше отключить автоматическое обучение, пояснб почему. Пока у вас пустая база, в нее попадает много ошибочных писем. Включив автообучение, вы не контролируете процесс обучения. Надо пособирать писем по 200-400 и заново обучить. Автообучение желательно включать тогда, когда точно будет ясно, что оно работает корректно.

vovabob
Junior member
Сообщения: 18
Зарегистрирован: 30 июл 2008, 11:18
Откуда: стерлитамак
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение vovabob » 23 июн 2009, 12:14

Stranger03 писал(а): Включив автообучение, вы не контролируете процесс обучения.
Ну автообучение-то у меня и отключено (bayes_auto_learn 0) и именно из этих побуждений.
Stranger03 писал(а):Надо пособирать писем по 200-400 и заново обучить.
Ок, спасибо. Если никаких явных косяков в настройках нет, то пожалуй так и сделаю.
Но два моих вопроса остались без внимания:
1) Рекомендации по переопределению баллов различных тестов - исходя из наработанного опыта и статистики спама;
2) что делает sa-learn --ham? Механизм его работы. Судя по анализу скормленных ему писем, оно дает что-то около минус 10 баллов... Где это можно увидеть и при желании переопределить.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Spamassassin пропускает много спама

Сообщение Stranger03 » 23 июн 2009, 12:52

vovabob писал(а):1) Рекомендации по переопределению баллов различных тестов - исходя из наработанного опыта и статистики спама;
Я у себя когда-то 100 лет назад делал так:

Код: Выделить всё

# score options
score FROM_ILLEGAL_CHARS	1.5
score HEAD_ILLEGAL_CHARS	1.5
score SUBJ_ILLEGAL_CHARS	1.5
score SUBJ_HAS_SPACES		2.5
score NO_REAL_NAME		1.0
score PENIS_ENLARGE		3.5
score PENIS_ENLARGE2		3.5
score FROM_HAS_MIXED_NUMS	1.0
score FORGED_IMS_TAGS		0.5
score FORGED_MUA_OUTLOOK	0.5
score FORGED_OUTLOOK_TAGS	0.5
score HTML_IMAGE_ONLY_02 BODY	3.5

# bayes score options
#score BAYES_00               -9.8 
#score BAYES_01               -3.048 
#score BAYES_10               -1.816 
#score BAYES_20               -2.856 
#score BAYES_30               -1.808 
#score BAYES_40               -0.002 
#score BAYES_44               -0.002 
#score BAYES_50               0.002 
#score BAYES_56               0.002 
#score BAYES_60               3.184 
#score BAYES_70               4.51
 
score BAYES_80			3.5 
score BAYES_90			4.0 
score BAYES_99			10.0
2) что делает sa-learn --ham? Механизм его работы. Судя по анализу скормленных ему писем, оно дает что-то около минус 10 баллов... Где это можно увидеть и при желании переопределить.
Тоже самое, что sa-learn --spam, только с точностью до наоборот. Записывает в базу баеса синатуры правильных писем.

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 14 гостей