Kdysi jsem používal SpamPal (blacklisty). Potom jsem přešel na K9 (Bayes). Jenže situace se zhoršovala a zhoršovala. Do schránky mi chodila hromada emailů napsaná buď čínsky (pro bayes filtr víceméně náhodná směs znaků) nebo emaily, kde header byl pokaždý úplně jiný a obsahem byl jen jeden velký obrázek. Takové emaily nemůže bayes filtr už z principu nikdy rozeznat jako SPAM.
Nyní používám opět SpamPal, (používá asi 10 blacklist serverů) a úspěšnost je skvělá. NIKDY mi neskončil ve SPAMu žádný email z freemailu (Seznam, Atlas, atd..)!
Takže použití blacklistŮ (zdůrazňuji množné číslo) má určitě velký smysl a podle mě je lepší než učící se filtry.
> Do schránky mi chodila hromada emailů napsaná buď čínsky
>(pro bayes filtr víceméně náhodná směs znaků)
Zjevne ten K9 mel spatny parser mailu.
> nebo emaily, kde header byl pokaždý úplně jiný a
> obsahem byl jen jeden velký obrázek.
Fakt nemuze? Nikdy? A jaktoze mne je tedy poznava? ;-) Prectete si moje clanky o bayesianskych filtrech, tam je receno, proc a jak filtr muze fungovat i na takovehle maily.
Dobře, já prostě tvrdím že mě filtr založený na blacklistech funguje líp. Ale čistě ze zvědavosti se ptám odborníka - jak bayes pozná jako spam následující email?
> Dobře, já prostě tvrdím že mě filtr založený na
> blacklistech funguje líp
Protoze jste zadny poradny obsahovy jeste nepouzival :-) Stahnete si Mozillu Thunderbird, nejakou dobu ji ucte (chce to cca par set mailu) a pak si to povime :-)))
> Ale čistě ze zvědavosti se ptám odborníka - jak
> bayes pozná jako spam následující email?
1) Pokud je IP na blacklistech, tak podle toho (viz dalsi dil)
2) Ve From jsou (primo!) nekorektni znaky (ASCII > 128)
3) V subjectu dtto
4) Charset je BIG8 - t.j. cinsky.
1) to jen potvrzuje užitečnost blacklistů.. BTW pokud se bayes "naučí" IP adresu spammera jako špatné slovo, stane se z něj vlastně blacklist :-))
2) ve from nejsou nekorektní znaky, je tam čínština. :-) ale je pravda že tam nepatří
3) dtto
4) tento bod mě dovádí k filozofické otázce - co je to vlastně bayes fitr?
Začalo to tím, že se koukalo na slova v emailu. A skončilo to tím, že to zkoumá každou blbinu v headeru.. Myslím, že tento princip může fungovat vždy jen chvíli. Nejhorší je, že spammeři jsou vždycky o něco napřed.
> 1) to jen potvrzuje užitečnost blacklistů.. BTW pokud se
> bayes "naučí" IP adresu spammera jako špatné slovo, stane
> se z něj vlastně blacklist :-))
Prave ze nikoli. Problemem blacklistu je jejich absolutnost. I kdyz nekdo posle lokomotivce "Objednavam u vas 100 ks lokomotiv typu E320 za 1 miliardu korun", a je na blacklistu, tak se jeho mail zahodi a vy se o tom ani nedozvite! Bayesiansky filtr by sice rekl "je na blacklistu, je to mozna spam", ale slova jako "objednavam" "lokomotiv" atp. by bohate stacila k tomu, aby to vyvazila.
Ad 2-3 - RFC2822 nepovoluje v hlavicce znaky s ASCII vetsim nez je 127. Vyskyt techto znaku je faktem, z nejz se take da neco usuzovat.
Ad 4: Mylite se. O analyze hlavicek se mluvi jiz v prvnim ("zakladnim") dokumentu Paula Grahama z roku 2002. Vrele doporucuji si precist http://www.lupa.cz/clanek.php3?show=3974 , dozvite se tam co potrevujete vedet :-) Treba i to, ze se spameri snazi prechytracit bayesianske filtry uz skoro tri roky a porad se jim to nepodarilo.
Ted mi dosel "spam", ktery podle me Bayesianske filtry prechytraci v pohode. Finta je v tom, ze ten spam vypada jako uplne normalni dopis, ktery bych - kdyby mi prisel v jinem kontextu - i ja sam klidne zaradil do nespamu. Samozrejme to znamena, ze nemuze propagovat konkretni produkt, ale hezky by se dal pouzit treba k ziskavani platnych adres duverivych uzivatelu.
(Ten spam se nesl zhruba v duchu "Ahoj, jmenuju se XY a jsem prodavajici v aukci, ktere jsi se zucastnil. Bohuzel jsem od tebe nedostal zadnou zpravu, takze se chci zeptat, jestli mas zajem dodrzet sve zavazky...")
Prechytracit by je mohl, ale nemusel: Jednak se podivejte do hlavicek, co se tam vyskytuje. U takovyhle mailu delaji hlavicky hodne. Dale musel byt v mailu uveden nejaky kontakt na odesilatele (WWW), ne? To se samozrejme take vyhodnocuje.
Dale jde o to, jake maily dostavate na ten ucet. Pokud to bude obchodni korespondence v jazyce toho spamu (anglictina?), tak by mozna prosel. Pokud se navic zabyvate aukcemi, tak skoro urcite.
Na druhou stranu, pokud "obchodni" korespondenci v anglictine nevedete, je dost slusna sance, ze by byl dopis vyhodnocen jako spam.
Ten mail jsem cetl samozrejme v puvodni textove podobe, tedy vcetne vsech hlavicek (protoze je pro me jednodussi file managerem zobrazit adresar mailserveru nez spoustet postovniho klienta). A porad tvrdim, ze na tom mailu nebylo nic, cim by to Bayes rozlisil od normalniho mailu. Takze jako kontakt samozrejme nebylo URL ale proste (na pohled normalni) adresa odesilatele. Aukcemi se zabyvam, anglictina tvori vetsi cast mailu, co dostavam; podezrele bylo vicemene jen to, ze to prislo na jinou domenu nez by melo (a take to, ze jsem v te dobe zadnou aktivni aukci nemel).
Aby tu bylo neco konkretniho, tak tady je ten mail. Jen jsem zmenil hlavicku To: a odrizl par Received: (ty, ktere uz se tykaly meho serveru). IMHO by k dokonalosti zbyvalo jen odstraneni toho zbytecneho HTML.
Return-Path: <dickybernielove@hotmail.com>
Received: from [65.54.249.109] (helo=omc3-s35.bay6.hotmail.com)
Received: from hotmail.com ([64.4.51.43]) by omc3-s35.bay6.hotmail.com with Microsoft SMTPSVC(6.0.3790.211);
Thu, 19 May 2005 13:41:17 -0700
Received: from mail pickup service by hotmail.com with Microsoft SMTPSVC;
Thu, 19 May 2005 13:41:16 -0700
Message-ID: <BAY107-F33EA044AD40699DA76C2DBB4080@phx.gbl>
Received: from 64.4.51.220 by by107fd.bay107.hotmail.msn.com with HTTP;
Thu, 19 May 2005 20:41:16 GMT
X-Originating-IP: [64.4.51.220]
X-Originating-Email: [dickybernielove@hotmail.com]
X-Sender: dickybernielove@hotmail.com
From: "bryan cornish" <dickybernielove@hotmail.com>
To: xxxxxxxxxx@xxxxxxxxxxx.cz
Bcc:
Subject: re: films and filming purchase
Date: Thu, 19 May 2005 20:41:16 +0000
Mime-Version: 1.0
Content-Type: text/html; format=flowed
X-OriginalArrivalTime: 19 May 2005 20:41:16.0996 (UTC) FILETIME=[1AE3B840:01C55CB3]
<html><div style='background-color:'><DIV class=RTE>Hi. You purchased the Films and Filming magazine from me through e bay, about 4 days ago, and I haven't heard from you since with regards to payment. I wondered if you had not received the invoice or perhaps had changed your mind! I'd be grateful if you could let me know. best wishes. Bryan</DIV></div></html>
Tohle neni spam. Tohle je tak maximalne neco, co ma zahnojit autowhitelist nebo podobne technologie, pripadne sehnat adresy. Neni tam zadny odkaz, zadna kontaktni adresa, zadna nabidka. Myslim, ze ani neni mozna pozadovat od antispamovych nastroju, aby neco podobneho detekovaly. Mimochodem, jste si na 100% jist, ze to neni regulerni mail se spatne napsanou adresou?
Je to spam. Jsem si 100% jist, ze to neni regulerni mail se spatne napsanou adresou.
Vim, ze nemuzu od antispamu chtit, aby tohle detekoval. Ale dal jsem to sem jako priklad spamu, na kterem Bayes selze. Myslim, ze neni az tak nepravdepodobna myslenka, ze casem zacnou spammeri pouzivat maily podobneho typu, az zjisti, ze tohle je cesta, jak se pres protispamove filtry dostat.
Duverivejsi lidi na to s velkou pravdepodobnosti odpovi. Spammer tim ziska _prinejmensim_ seznam platnych, aktivnich adres lidi, kteri jsou nachylnejsi nechat se ukecat. Kdo vi, jake dalsi moznosti si spammeri vymysli.
Odpovim si sam: uvedomil jsem si ze ten fakt ze jsou v hlavickach nekorektni znaky pouzijete jen jako vstup pro Bayesovsky filtr, ktery mate rozsiren tak, aby nehodnotil jen slova, ale i takoveto jevy. Potom samozrejme neni problem.
Kromě uvedených faktů hraje roli také to, že důležitá nabídka je obvykle poslaná z normálního e-mailového klienta, který znaky v hlavičkách ošetřuje správně.
A ci je to problem? O tom, jak to dopada, kdyz se pocitace snazi uhodnout co tim chtel vlastne basnik rici vime sve a kupodivu i ten slovutny a mocny se nakonec obratil na pravou viru a sel do sebe.... - co myslite, proc asi?