Mate pravdu, spamhammers nefunguji na nize popsane maily, kde nesouhlasi textova cast s html casti (utrzek z konference o MailScanneru):
Most of the messages I've seen like this have multipart/alternative structure where
the text and html segments don't match (the text segment is gibberish
and the html segment has spam). Rules that try to identify gibberish
would seem to be rather misguided ... just find a way to check and see
if the two segments don't match in content.
I tried asking about this on the sa-talk list, even re-posting my
question, and have had NO response. The sa-talk list is rather
annoying in this regard.
Which thread topics are the ones you're talking about? (there are too
many of them to read each and every one of them to track it down)
Hezky odkaz, diky. Ale mam pocit, ze se stranka nezabyva tim, o cem mluvi puvodni prispevek threadu a to nacpanim desitek (v danem kontextu) nesmyslnych slov do tela mailu. Nebo jsem neco prehledl?
A ty si potom budeme s chutí číst, čímž se sice nezmění nic na nevyžádanosti toho e-mailu, zato se něco změní na jeho žádoucnosti a možná to změní i duši těch spammerů. Geniální... Leč utopické. :((
Obrana konkretne proti tomuhle mi pripada celkem jednoducha: staci odchytavat ty maily, ktere obsahuji vice nez tricet po sobe jdoucich slov bez interpunkce.
Jenomze co bude dal? Spammeri nasadi nahodne vkladanou interpunkci. :-( A tak to pujde dal: rozpoznavani poctu sloves a vetne skladby, atd. Nakonec ty nahodne generovane casti spamu budou vypadat jako ty pocitacem psane basne z Markova romanu Blazeny vek:
"Pochod spi paka noci
nespi kdo stoji straz
prach pada na hvezdy a noc o noci
ruka mesta pise
Az"
Az zacnou spammeri psat basne, mozna se ze spamu stane jedinecne nove kulturni odvetvi... spamfiltry se nakonec nauci filtrovat i "ukradene" texty, takze spammeri budou muset misto opsani odstavce z knizky zacit psat vlastni texty! :-)
To muzu potvrdit, takovych spamu chodi v posledni dobe dost. Zasadne jimi nekrmim sa-learn, ale rekl bych, ze takove "otravene" texty by bylo mozno take detekovat. SpamAssassin nastesti nespoleha zdaleka jenom na Bayese a da se celkem rozumne ladit.
Mno, takze se na spam bude muset nasadit slovnikova metoda, pripadne nejaky analyzator jazyka, ktery rekne, jestli dany text ma smysl. Grr... uz se tesim, az zacnou spammeri psat basne...
Já začínám mít se Spamassassinem také trochu problémy. Assassin bude těžko detekovat spamy ve formě HTML s vloženými obrázky. Tato hrůza bez problémů projde, stejně jako výše uvedený spam. V manuálových stránkách k programu sa-learn se dočtete, že je potřeba shromáždit desítky tisíc! vzorků vyžádaných mailů (ham) a nevyžádaných (spam), aby měl proces učení dobrou účinnost. Dle mého názoru si situace vyžaduje nasazení dalších prostředků (Amavis). No, po zkouškách se do toho pustím ;-).
Tak tak, Mozilla Firebird je super. Vetsinu spamu vychytam na serveru pres Messagewall, zbytek mi filtruje MF. A to velmi dobre, zatim jsem mel jenom jediny false positive z jedne anlicke konference, chtelo ho to trochu zaucit a nyni mi pusti tak jeden spam za tyden.
Bohuzel Bayesovske metody uz asi budou brzo prekonany.
Nedavno konferenci debian-security proletla zprava, ze se spameri snazi "otravit" bayesovke" filtry. Proste na konec spamu prihodit 200 nahodnych slov. Od te doby mi uz takovych spamu prislo asi 60. Takove maily klidne prosly jak spamassassinem tak i kontrolou v mozille, ktera je podle meho dost dobra.
Viz ukazka:
STILL NO LUCK ENLARGING IT?
Our 2 products will work for you!
1. #1 Supplement available! - Works!
FOR VPRX CIILCK HERE
and
2. *New* Enhancement Oil - Get hard in 60 seconds! Amazing!
Like no other oil you've seen.
FOR VPRX OIL CIILCK HERE
Me funguje dobre spamovy filtr v Mozille. Zatim se mi nestalo aby normalni mail oznacilo jako spam, obcas mu jen musim oznacit nejaky mail ze to spam je. Ucinnost ma cca 95% pri denni davce tak 30-40 spamu ktere mi chodi.
já si to sám napsat neumím a popravdě ani nepotřebuju
tenhle spamfilter nefunguje tak, že by mazal vše z hotmailu, on vyhodnocuje zprávy na základě textu a předchozích zkušeností - pak přidělí určitý počet bodů a ty si předem určíš při kolika bodech bude mail smazaný, při kolika půjde do složky junk mail a při kolika projde - funguje to překvapivě dobře
Mno, ja si pisu zas vlastni spam filter v ramci zapoctaku z predmetu UNIX :o)
Nejlepsi je si filtry udelat sam, pokud pouziva clovek nejaky filtr z externich zdroju u ktereho nevi jak funguje, tak to pak muze dopadat tak, ze bude dost false positives ..... (kamarad ma ucet na hotmailu a neni ve whitelistu? smula ....)
používám Bayes It! spamfilter do The Bat! klienta a z původních 20 spamů denně mi projde tak jeden týdně - po chvilce učení tenhle filtr pracuje opravdu kvalitně a spolehlivě.