SA obsahuje bayesovský klasifikátor jako jednu z komponent, tudíž psát, že bayesovský klasifikátor dělá něco na rozdíl od SA, je přinejmenším hodně nepřesné.
SA používá pro přiřazení vah abnormalitám genetický algoritmus optimalizující úspěšnost třídění, tudíž zpětnou vazbu má nepochybně lepší -- rozdíl je jen v tom, že váhy pravidel optimalizuje jen autor a pár šílenců, kdežto bayesovský klasifikátor si trénuje kdekdo.
> SA obsahuje bayesovský klasifikátor jako jednu z komponent
To samozrejme vim. Akorat ten vystup pak zmrsi tim, ze ho prevede na nejake hausnumero - skore.
> bayesovský klasifikátor dělá něco
Ja jsem nepsal dela, ale "ma" (fungujici zpetnou vazbu).
> SA používá pro přiřazení vah abnormalitám genetický algoritmus
> optimalizující úspěšnost třídění, tudíž zpětnou vazbu má nepochybně lepší
Prectete si, jak to cele funguje. Jednak od verze 3 je tam simulace neuronove site, ale to neni podstatne. Jestli je lepsi GA/NN nebo statistiky a-la Bayes bychom mohli debatovat dlouho, a nevim, jestli bychom se dobrali k nejakemu smysluplnemu vysledku.
Ale ve svetle faktu, ze cela zpetna vazba trva SA 4 tydny (http://wiki.apache.org/spamassassin/VirusScannerTypeUpdates) bych si o jejich lepsich vlastnostech dovolil dost silne pochybovat.
Stejne pochybny je fakt, ze tato vazba je pouze globalni - pro vsechny stejna. A to je IMHO velky omyl (viz casti clanku o obchazeni filtru). Pro cecha musi byt skore pro predmet mailu v ISO-8859-2 zcela zjevne jine, nez pro americana.
Asi by se dala ta zpetna vazba poustet lokalne, ale na to potrebujete uchovavat kompletni texty mailu (i kdyz by mozna stacilo uchovavat jen skore ruznych testu pro ne) a trvala by netrivialni dobu.
> Ale ve svetle faktu, ze cela zpetna vazba trva SA 4 tydny
> http://wiki.apache.org/spamassassin/VirusScannerTypeUpdates)
> bych si o jejich lepsich vlastnostech dovolil dost silne
> pochybovat.
Prosim? Ved si protirecite - vidite predsa, ze ta stranka sa tyka este verzie 2, kde je onen GA a nie NN.
Pokud spravne chapu vyznam slova "protirecite" ve slovenstine, tak nikoli ;-) Nic neznacuje, ze by pro verzi 3 byl princip prepocitavani jiny. Viz http://wiki.apache.org/spamassassin/HowScoresAreAssigned. Lisi se pouze algoritmus pouzivany pro nalezeni nejlepsich skore.
Ano, vztahuji. Pokud jsem to pochopil, tak vy si ty hodnoty nemuzete (jednoduse) ani sam spocitat.
sa-learn ale aktualizuje pouze databazi bayesovske komponenty, nikoli skore jednotlivych testu spamassassinovskeho filtru. Takze sa vam muze stat, ze vam budou chodit maily, chybne klasifikovane jako spamy - protoze budou matchovat nekolik kontrol s velkym skore. A s trochou smuly budou oznaceny jako spamy i kdyz Bayes rekne, ze je to 100% ham. Vy je pak muzete prohanet sa-learn jak chcete, ale porad se budou klasifikovat spatne.