Ten blacklist jsem myslel taky jako otázku na to, podle čeho se ten systém nakonec rozhoduje. (Kolik % výkonu je filtr adres.) Je fajn, že už jste to používali. :-)
No, ono to není něco co by bylo vzdálené od reality. Takovýhle systém by se neměl rozhodovat podle "divných" kritérií.
Do vaší situace úplně nevidím, tak si některé věci musím domýšlet a hádat, ale počítám, že zákazníkům tam chodí i nabídky dlouhodobé spolupráce, ale že jich bude ve vybraných datech strašně málo. A i přesto chcete, aby se na nich systém choval rozumně.
Tohle může být jeden z důvodů, proč zkoumat, zda např. přítomnost jednoho, dvou slov, která by neměla být typická pro spam (na rozdíl o slova vXiXaXgXrXa), nebude automaticky znamenat, že email spadne do spamu.
Mimochodem, v okamžiku, kdy jsem nevykřížkoval slovo vXiXaXgXrXa, tak mi lupa.cz zobrazila zprávu
"Váš názor byl vyhodnocen jak spam (v textu byla použita zakázaná slova) a nebude přijat. Pokud se domníváte, že zadáváte regulérní názor, pošlete nám ho prosím e-mailem do redakce na adresu redakce (zavináč) lupa (tečka) cz"
Přesně takhle by ten antispam v emailu fungovat neměl.. :D :D :D
Hezký článek, jenom bych upozornil, že dřívější nejistota výsledku nebyla ani tak o tom, že by tehdejší experti neznali techniky, které zná amazon, nebo je nebyli schopni použít. Byla spíš tom, že celkový výsledek prostě nemusel dávat smysl.
On ten expert totiž tráví čas tím, aby zkoumal, co ten jeho model dělá, a co má vlastně za data.
Nechodí vám tam nějaký spam 30x? Pak by byl zároveň v trénovací a testovacích sadách.
Jak moc to funguje jako blacklist emailových adres?
Kolík máte spamových emailů? Nepřikládá to až příliš velký význam (ne)přítomnosti jednotek slov?
Expert tam je potřeba i proto, aby vám řekl, že něco není dobrý nápad. Je otázka, zda zákazník raději přečte hromadu spamu, nebo občas přijde o nějakého zajímavého zákazníka.
Děkuji za super podněty.
S tím expertem rozhodně souhlasím. Určitě by to dokázal dotáhnout ještě mnohem dále a vylepšit. To ale nebylo cílem. Cílem bylo za minimální úsilí usnadnit našim zákazníkům práci => tedy snížit množství spamu. Takže určitě to jde udělat ještě násobně lépe, ale za daný čas a úsilí jsme velmi spokojení.
Nechodí vám tam nějaký spam 30x? Pak by byl zároveň v trénovací a testovacích sadách.
=> Jasně, chodí stejný na řadu adres. Snažili jsme se to aspoň trošku vyloučit.
Jak moc to funguje jako blacklist emailových adres?
=> Vůbec. Black a White list je dělaný separátně. Ten vzniká postupně už pár let, jak monitorujeme, co zákazníci reportují atd.
Kolík máte spamových emailů? Nepřikládá to až příliš velký význam (ne)přítomnosti jednotek slov?
=> Vzorek byl cca 50/50, trénováno na sadách 1000, 6000, 10000 dat. Čemu přikládá, či nepřikládá význam netuším. To by bylo právě to téma na toho experta, který by nad tím teď seděl a hloubal a model posouval dále. Ale bude to mít dostatečný význam i pro naše klienty? :)