ммм ... но спам то у всех одинаковый? или то чем нужно обучать и есть индивидуальности?corvax писал(а):никакой адаптации толковой не будет
sa-learn
Модераторы: Trinity admin`s, Free-lance moderator`s
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
может тогда договоримся о терминах?seus писал(а):ммм ... но спам то у всех одинаковый?corvax писал(а):никакой адаптации толковой не будет
ибо spamassassin при обучении анализирует не только тело письма, но и заголовки
обучать нужно как спамом, так и хамом таким, который нужно потом будет идентифицировать как спам или хамseus писал(а):или то чем нужно обучать и есть индивидуальности?
хотя... поступайте как знаете...
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
я за! :)corvax писал(а):может тогда договоримся о терминах?
что я имею в виду:
как я понял, ассассин заточен изначально на грубый спам
для того чтобы он лучче понимал что я хочу и чего не хочу получать, я должен его пообучать, так?
так вот то чем я буду его обучать это и есть тюннинг под мои, индивидуальные нужды, так?
потому я предполагаю, что взяв чьюто базу, мне проще исключать из нее то что не соответствует моим нуждам, чем обучать изначально, что скажете?
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
а должен быть "заточен" на "утонченный" или "деликатный"?seus писал(а):я за! :)corvax писал(а):может тогда договоримся о терминах?
что я имею в виду:
как я понял, ассассин заточен изначально на грубый спам
обучать надо. но термин "грубый" - это чушь какая-тоseus писал(а):для того чтобы он лучче понимал что я хочу и чего не хочу получать, я должен его пообучать, так?
у SA есть правила, анализирующие тело письма, залоговки, есть сетевые тесты, а есть статистический фильтр. так вот, без обучения не работает статистический фильтр, но могут работать остальные фильтры. после обучения могут работать как статистический фильтр, так и остальные.
откуда мне знать, что вы понимаете под "мои, индивидуальные нужды", если вы спам можете квалифицировать как "грубый"?seus писал(а):так вот то чем я буду его обучать это и есть тюннинг под мои, индивидуальные нужды, так?
на счет обучения и статистического фильтра см. выше
имеется ввиду исключение из чьей-то базы не соответствующие нуждам письма или имеется ввиду исключение токенов из базы байеса?seus писал(а):потому я предполагаю, что взяв чьюто базу, мне проще исключать из нее то что не соответствует моим нуждам, чем обучать изначально, что скажете?
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
если бы это было возможно то не было бы нужды обсужадть вопросы по обучению спамдетектораcorvax писал(а):а должен быть "заточен" на "утонченный" или "деликатный"?
грубый = не нуждающийся в обучении для того чтобы определить его именно как спамcorvax писал(а):но термин "грубый" - это чушь какая-то
хм, мои индивидуальные в классическом понимании термина индивидуальные ... т.е. скажем я могу желать получать то что Вы посчитаете однозначно спамом и наоборот ...corvax писал(а):откуда мне знать, что вы понимаете под "мои, индивидуальные нужды", если вы спам можете квалифицировать как "грубый"?
второе конечно же :)corvax писал(а):имеется ввиду исключение из чьей-то базы не соответствующие нуждам письма или имеется ввиду исключение токенов из базы байеса?
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
а для меня спам является грубым как раз тогда, когда он на столько крив, что даже без статистического фильтра можно с уверенностью сказать, что это спамseus писал(а):грубый = не нуждающийся в обучении для того чтобы определить его именно как спам
а вы вообще уже смотрели, в каком виде spamassassin хранит базы байеса? что-то мне подсказывает, что нетseus писал(а):хм, мои индивидуальные в классическом понимании термина индивидуальные ... т.е. скажем я могу желать получать то что Вы посчитаете однозначно спамом и наоборот ...corvax писал(а):откуда мне знать, что вы понимаете под "мои, индивидуальные нужды", если вы спам можете квалифицировать как "грубый"?
второе конечно же :)corvax писал(а):имеется ввиду исключение из чьей-то базы не соответствующие нуждам письма или имеется ввиду исключение токенов из базы байеса?
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
интересно что именно?corvax писал(а):а вы вообще уже смотрели, в каком виде spamassassin хранит базы байеса? что-то мне подсказывает, что нет

вообщето я имею в виду опцию --forget для sa-learn
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
ваше желание именно исключать токены из базы байесаseus писал(а):интересно что именно?corvax писал(а):а вы вообще уже смотрели, в каком виде spamassassin хранит базы байеса? что-то мне подсказывает, что нет
это не исключение токеновseus писал(а):вообщето я имею в виду опцию --forget для sa-learn
это таки исключение сообщений, вернее, это снятие проверки обученности письма
в общем, мы уже на месте топчемся
я думаю, что у каждого попробовавшего обучить свой статистический фильтр чужими письмами сложится свое мнение о качестве такого обучения
отговаривать кого-либо от этой затеи более не считаю целесообразным
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
да ну что тут непонятного? Вы крупный провайдер с солидной базой антиспама, а я Ваш клиент и хочу использовать Вашу базу но для своего почтовика ... на мой взгляд вполне нормальное желание, ибо по определению почтовик ISP получает спама больше чем любой его клиент ...corvax писал(а):ваше желание именно исключать токены из базы байеса
может я чтото путаю?corvax писал(а):это не исключение токенов
это таки исключение сообщений, вернее, это снятие проверки обученности письма
но в мане говориться про понижение веса токенов ...
да, действительно ...corvax писал(а):в общем, мы уже на месте топчемся
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
у вас есть шанс получить высокий уровень false positiveseus писал(а):да ну что тут непонятного? Вы крупный провайдер с солидной базой антиспама, а я Ваш клиент и хочу использовать Вашу базу но для своего почтовика ... на мой взгляд вполне нормальное желание, ибо по определению почтовик ISP получает спама больше чем любой его клиент ...corvax писал(а):ваше желание именно исключать токены из базы байеса
ибо даже просто в крупном офисе уже есть смысл держать индивидуальные базы байеса
seus писал(а):может я чтото путаю?corvax писал(а):это не исключение токенов
это таки исключение сообщений, вернее, это снятие проверки обученности письма
но в мане говориться про понижение веса токенов ...
Код: Выделить всё
SpamAssassin remembers which mail messages it has learnt already, and will not re-learn those messages again, unless you use the
--forget option. Messages learnt as spam will have SpamAssassin markup removed, on the fly.
seus писал(а):да, действительно ...corvax писал(а):в общем, мы уже на месте топчемся
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
хм ... понимаю ... но что делать то? отказываться от антиспама централизованного совсем? а если юзеров несколько тысяч?corvax писал(а):seus писал(а):у вас есть шанс получить высокий уровень false positive
ибо даже просто в крупном офисе уже есть смысл держать индивидуальные базы байеса
corvax писал(а):нету тут ничего о понижении веса токенов. может мы разные маны читаем?[/code]
ммм ... та запросто
sa-learn -V
SpamAssassin version 3.1.1
от него ман и цитирован ...
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
разбивать пользователей на группы. по организациям, если организация крупная и характер писем очень неоднородный, то по направлениям работы. потом нагибать MTA в сторону того, чтобы он при проверке письма у spamd выбирал нужную базку байесаseus писал(а):хм ... понимаю ... но что делать то? отказываться от антиспама централизованного совсем? а если юзеров несколько тысяч?corvax писал(а):у вас есть шанс получить высокий уровень false positive
ибо даже просто в крупном офисе уже есть смысл держать индивидуальные базы байеса
ну так укажите в этом мане фрагмент, в котором бы упоминалось понижение веса токенов в результате использования ключа --forgetseus писал(а):ммм ... та запростоcorvax писал(а):нету тут ничего о понижении веса токенов. может мы разные маны читаем?
sa-learn -V
SpamAssassin version 3.1.1
от него ман и цитирован ...
Последний раз редактировалось corvax 11 апр 2006, 10:15, всего редактировалось 2 раза.
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
я уже указывал ...corvax писал(а):ну так укажите в этом мане фрагмент, в котором бы упоминалось понижение веса токенов в результате использования ключа --forget
секция GETTING STARTED, фрагмент:
If you need SpamAssassin to forget about specific messages, use the
--forget option.
This can be applied to either ham or spam that has run through the
sa-learn processes. It's a bit of a hammer, really, lowering the
weighting of the specific tokens in that message (only if that
message has been processed before).
- corvax
- free-lance moderator
- Сообщения: 877
- Зарегистрирован: 06 авг 2004, 17:21
- Откуда: Kiev, Ukraine
- Контактная информация:
Re: базы для обучения
я что-то пропустил?... хотя, это неважно наверное уже...seus писал(а):я уже указывал ...corvax писал(а):ну так укажите в этом мане фрагмент, в котором бы упоминалось понижение веса токенов в результате использования ключа --forget
так это не просто уменьшение токенов. это исключение из веса токенов результатов обучения конкретным письмом. в вашем случае этого легче достичь, просто исключив заранее из обучения письма чужие, которые вы не считаете спамом. в общем, обучайте как знаете... особенно, если у вас пользователей много...seus писал(а):секция GETTING STARTED, фрагмент:
If you need SpamAssassin to forget about specific messages, use the
--forget option.
This can be applied to either ham or spam that has run through the
sa-learn processes. It's a bit of a hammer, really, lowering the
weighting of the specific tokens in that message (only if that
message has been processed before).
--
/corvax
/corvax
-
- Junior member
- Сообщения: 10
- Зарегистрирован: 10 апр 2006, 16:41
- Откуда: Donetsk, UA
- Контактная информация:
Re: базы для обучения
очень прошу меня понимать правильно, почему я продолжаю этот разговор, мне нужно выбрать оптимальный вариант, опыта работы с ассассином нЕ имею, потому спрашиваю тех кто имеет 

понятно ... это когда она есть, а если самих писем нет, то это наверное единственное решение, при условии использования чужой базы
ок, спасибо большое за терпение

это я с самого ничала и имел в видуcorvax писал(а):так это не просто уменьшение токенов. это исключение из веса токенов результатов обучения конкретным письмом.

corvax писал(а):в вашем случае этого легче достичь, просто исключив заранее из обучения письма чужие, которые вы не считаете спамом. в общем, обучайте как знаете... особенно, если у вас пользователей много...
понятно ... это когда она есть, а если самих писем нет, то это наверное единственное решение, при условии использования чужой базы
ок, спасибо большое за терпение

Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 5 гостей