sa-learn

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 10 апр 2006, 17:11

corvax писал(а):никакой адаптации толковой не будет
ммм ... но спам то у всех одинаковый? или то чем нужно обучать и есть индивидуальности?

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 10 апр 2006, 17:22

seus писал(а):
corvax писал(а):никакой адаптации толковой не будет
ммм ... но спам то у всех одинаковый?
может тогда договоримся о терминах?
ибо spamassassin при обучении анализирует не только тело письма, но и заголовки
seus писал(а):или то чем нужно обучать и есть индивидуальности?
обучать нужно как спамом, так и хамом таким, который нужно потом будет идентифицировать как спам или хам

хотя... поступайте как знаете...
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 10 апр 2006, 17:28

corvax писал(а):может тогда договоримся о терминах?
я за!  :)

что я имею в виду:
как я понял, ассассин заточен изначально на грубый спам
для того чтобы он лучче понимал что я хочу и чего не хочу получать, я должен его пообучать, так?

так вот то чем я буду его обучать это и есть тюннинг под мои, индивидуальные нужды, так?

потому я предполагаю, что взяв чьюто базу, мне проще исключать из нее то что не соответствует моим нуждам, чем обучать изначально, что скажете?

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 10 апр 2006, 17:34

seus писал(а):
corvax писал(а):может тогда договоримся о терминах?
я за!  :)

что я имею в виду:
как я понял, ассассин заточен изначально на грубый спам
а должен быть "заточен" на "утонченный" или "деликатный"?
seus писал(а):для того чтобы он лучче понимал что я хочу и чего не хочу получать, я должен его пообучать, так?
обучать надо. но термин "грубый" - это чушь какая-то

у SA есть правила, анализирующие тело письма, залоговки, есть сетевые тесты, а есть статистический фильтр. так вот, без обучения не работает статистический фильтр, но могут работать остальные фильтры. после обучения могут работать как статистический фильтр, так и остальные.
seus писал(а):так вот то чем я буду его обучать это и есть тюннинг под мои, индивидуальные нужды, так?
откуда мне знать, что вы понимаете под "мои, индивидуальные нужды", если вы спам можете квалифицировать как "грубый"?

на счет обучения и статистического фильтра см. выше
seus писал(а):потому я предполагаю, что взяв чьюто базу, мне проще исключать из нее то что не соответствует моим нуждам, чем обучать изначально, что скажете?
имеется ввиду исключение из чьей-то базы не соответствующие нуждам письма или имеется ввиду исключение токенов из базы байеса?
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 10 апр 2006, 17:44

corvax писал(а):а должен быть "заточен" на "утонченный" или "деликатный"?
если бы это было возможно то не было бы нужды обсужадть вопросы по обучению спамдетектора
corvax писал(а):но термин "грубый" - это чушь какая-то
грубый = не нуждающийся в обучении для того чтобы определить его именно как спам
corvax писал(а):откуда мне знать, что вы понимаете под "мои, индивидуальные нужды", если вы спам можете квалифицировать как "грубый"?
хм, мои индивидуальные в классическом понимании термина индивидуальные ... т.е. скажем я могу желать получать то что Вы посчитаете однозначно спамом и наоборот ...
corvax писал(а):имеется ввиду исключение из чьей-то базы не соответствующие нуждам письма или имеется ввиду исключение токенов из базы байеса?
второе конечно же  :)

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 10 апр 2006, 17:49

seus писал(а):грубый = не нуждающийся в обучении для того чтобы определить его именно как спам
а для меня спам является грубым как раз тогда, когда он на столько крив, что даже без статистического фильтра можно с уверенностью сказать, что это спам
seus писал(а):
corvax писал(а):откуда мне знать, что вы понимаете под "мои, индивидуальные нужды", если вы спам можете квалифицировать как "грубый"?
хм, мои индивидуальные в классическом понимании термина индивидуальные ... т.е. скажем я могу желать получать то что Вы посчитаете однозначно спамом и наоборот ...
corvax писал(а):имеется ввиду исключение из чьей-то базы не соответствующие нуждам письма или имеется ввиду исключение токенов из базы байеса?
второе конечно же  :)
а вы вообще уже смотрели, в каком виде spamassassin хранит базы байеса? что-то мне подсказывает, что нет
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 10 апр 2006, 18:10

corvax писал(а):а вы вообще уже смотрели, в каком виде spamassassin хранит базы байеса? что-то мне подсказывает, что нет
интересно что именно? :x

вообщето я имею в виду опцию --forget для sa-learn

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 10 апр 2006, 18:15

seus писал(а):
corvax писал(а):а вы вообще уже смотрели, в каком виде spamassassin хранит базы байеса? что-то мне подсказывает, что нет
интересно что именно? :x
ваше желание именно исключать токены из базы байеса
seus писал(а):вообщето я имею в виду опцию --forget для sa-learn
это не исключение токенов
это таки исключение сообщений, вернее, это снятие проверки обученности письма

в общем, мы уже на месте топчемся
я думаю, что у каждого попробовавшего обучить свой статистический фильтр чужими письмами сложится свое мнение о качестве такого обучения
отговаривать кого-либо от этой затеи более не считаю целесообразным
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 10 апр 2006, 18:28

corvax писал(а):ваше желание именно исключать токены из базы байеса
да ну что тут непонятного? Вы крупный провайдер с солидной базой антиспама, а я Ваш клиент и хочу использовать Вашу базу но для своего почтовика ... на мой взгляд вполне нормальное желание, ибо по определению почтовик ISP получает спама больше чем любой его клиент ...
corvax писал(а):это не исключение токенов
это таки исключение сообщений, вернее, это снятие проверки обученности письма
может я чтото путаю?
но в мане говориться про понижение веса токенов ...
corvax писал(а):в общем, мы уже на месте топчемся
да, действительно ...

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 10 апр 2006, 18:42

seus писал(а):
corvax писал(а):ваше желание именно исключать токены из базы байеса
да ну что тут непонятного? Вы крупный провайдер с солидной базой антиспама, а я Ваш клиент и хочу использовать Вашу базу но для своего почтовика ... на мой взгляд вполне нормальное желание, ибо по определению почтовик ISP получает спама больше чем любой его клиент ...
у вас есть шанс получить высокий уровень false positive
ибо даже просто в крупном офисе уже есть смысл держать индивидуальные базы байеса
seus писал(а):
corvax писал(а):это не исключение токенов
это таки исключение сообщений, вернее, это снятие проверки обученности письма
может я чтото путаю?
но в мане говориться про понижение веса токенов ...

Код: Выделить всё

      SpamAssassin remembers which mail messages it has learnt already, and will not re-learn those messages again, unless you use the
       --forget option. Messages learnt as spam will have SpamAssassin markup removed, on the fly.
нету тут ничего о понижении веса токенов. может мы разные маны читаем?
seus писал(а):
corvax писал(а):в общем, мы уже на месте топчемся
да, действительно ...
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 11 апр 2006, 09:27

corvax писал(а):
seus писал(а):у вас есть шанс получить высокий уровень false positive
ибо даже просто в крупном офисе уже есть смысл держать индивидуальные базы байеса
хм ... понимаю ... но что делать то? отказываться от антиспама централизованного совсем? а если юзеров несколько тысяч?
corvax писал(а):нету тут ничего о понижении веса токенов. может мы разные маны читаем?[/code]

ммм ... та запросто :D

sa-learn -V
SpamAssassin version 3.1.1

от него ман и цитирован ...

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 11 апр 2006, 09:39

seus писал(а):
corvax писал(а):у вас есть шанс получить высокий уровень false positive
ибо даже просто в крупном офисе уже есть смысл держать индивидуальные базы байеса
хм ... понимаю ... но что делать то? отказываться от антиспама централизованного совсем? а если юзеров несколько тысяч?
разбивать пользователей на группы. по организациям, если организация крупная и характер писем очень неоднородный, то по направлениям работы. потом нагибать MTA в сторону того, чтобы он при проверке письма у spamd выбирал нужную базку байеса
seus писал(а):
corvax писал(а):нету тут ничего о понижении веса токенов. может мы разные маны читаем?
ммм ... та запросто :D

sa-learn -V
SpamAssassin version 3.1.1

от него ман и цитирован ...
ну так укажите в этом мане фрагмент, в котором бы упоминалось понижение веса токенов в результате использования ключа --forget
Последний раз редактировалось corvax 11 апр 2006, 10:15, всего редактировалось 2 раза.
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 11 апр 2006, 10:02

corvax писал(а):ну так укажите в этом мане фрагмент, в котором бы упоминалось понижение веса токенов в результате использования ключа --forget
я уже указывал ...
секция GETTING STARTED, фрагмент:

If you need SpamAssassin to forget about specific messages, use the
      --forget option.
          This can be applied to either ham or spam that has run through the
          sa-learn processes. It's a bit of a hammer, really, lowering the
          weighting of the specific tokens in that message (only if that
          message has been processed before).

Аватара пользователя
corvax
free-lance moderator
Сообщения: 877
Зарегистрирован: 06 авг 2004, 17:21
Откуда: Kiev, Ukraine
Контактная информация:

Re: базы для обучения

Сообщение corvax » 11 апр 2006, 10:13

seus писал(а):
corvax писал(а):ну так укажите в этом мане фрагмент, в котором бы упоминалось понижение веса токенов в результате использования ключа --forget
я уже указывал ...
я что-то пропустил?... хотя, это неважно наверное уже...
seus писал(а):секция GETTING STARTED, фрагмент:

If you need SpamAssassin to forget about specific messages, use the
      --forget option.
          This can be applied to either ham or spam that has run through the
          sa-learn processes. It's a bit of a hammer, really, lowering the
          weighting of the specific tokens in that message (only if that
          message has been processed before).
так это не просто уменьшение токенов. это исключение из веса токенов результатов обучения конкретным письмом. в вашем случае этого легче достичь, просто исключив заранее из обучения письма чужие, которые вы не считаете спамом. в общем, обучайте как знаете... особенно, если у вас пользователей много...
--
/corvax

seus
Junior member
Сообщения: 10
Зарегистрирован: 10 апр 2006, 16:41
Откуда: Donetsk, UA
Контактная информация:

Re: базы для обучения

Сообщение seus » 11 апр 2006, 10:24

очень прошу меня понимать правильно, почему я продолжаю этот разговор, мне нужно выбрать оптимальный вариант, опыта работы с ассассином нЕ имею, потому спрашиваю тех кто имеет :)
corvax писал(а):так это не просто уменьшение токенов. это исключение из веса токенов результатов обучения конкретным письмом.
это я с самого ничала и имел в виду :)
corvax писал(а):в вашем случае этого легче достичь, просто исключив заранее из обучения письма чужие, которые вы не считаете спамом. в общем, обучайте как знаете... особенно, если у вас пользователей много...
 

понятно ... это когда она есть, а если самих писем нет, то это наверное единственное решение, при условии использования чужой базы

ок, спасибо большое за терпение :)

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»