 
Jsem docela překvapený, že si Cutts a Singhal takhle pustili hubu na špacír, protože konkrétní detaily rozpoznávacích algoritmů i detaily sběru je skutečně nutné ostře strážit. Ani ne tak před konkurencí jako spíš před blackhat SEO farmáři. Tyhle věci (rozpoznávání spamu apod.) se dělají už aspoň osm let a nikdy se o nich moc nemluvilo. Asi se teď snaží být zajímaví nebo ženou cenu akcií.
Je sice zajímavé, že se "komentátoři internetového prostoru" na něčem shodnou, ale mnohem důležitější je, co ukazují data při vyhodnocení signálů. V článku je zmíněno devět signálů. V praxi je dobré spočítat si několik tisíc až několik desítek tisíc signálů a teprve ty vyhodnocovat. Přibližně každý desátý se ukáže jako výživný, a ten se použije. Nevěřím třeba, že by Google nesledoval diferenciaci a rozkročenost obsahu nebo nepřirozenost jazyka. Sám dobře vím, jak se třeba pro vyhledávání hodí mít detekci automatického překladu.
Když přemýšlíte o zdrojích dat, tak je musíte myšlenkově rozdělit na dvě skupiny. 1) zdroje ovlivněné stránkou a 2) zdroje neovlivněné stránkou. Například Analytics patří do zdrojů ovlivněných stránkou, protože jsou prostě jenom na některých stránkách. Stejně tak AdSense nebo facebook tlačítka -- jsou jenom na některých stránkách. Naopak SERP nebo data z Chrome jsou konkrétním webem neovlivněné. Pak platí následující:
1) zdroje ovlivněné stránkou lze použít pouze na VÝZKUM, nikoli na sběr signálů pro řazení nebo vyhodnocování kvality. (Typicky tedy Analytics lze použít na výzkum signálů.) Je to tím, že takové signály mají malé pokrytí. Na výzkum to stačí, na provoz nikoli.
2) jako signály můžete použít zdroje neovlivněné stránkou (tedy třeba data z Chrome). Snaha farmářů utéct postihu tím, že si zruší Analytics, je směšná, protože Analytics se na detekci z pohledu Google nedá dobře použít.
V přehledu použitelných reklamních systémů chybí kontextový Sklik.
Lukáši, velmi dobrý článek, chválím.
 
Relevanci vyhledavani to prosepeje, par lidi prijde o chleba, ale ti stejne jen zneuzivali system a nic do nej neprinaseli, takze jich litovat nemusime. Navic to je od google logicky krok, potrebuje, aby se vyhledavalo u nej a ne brouzdalo po nejakych srovnavacich cen. Jiz 2 roky rikam, ze je jen otazkou casu, kdy google tyhle servery odstrihne, protoze ho zacnou pripravovat o prilis mnoho dotazu a tim padem i penez.
Ale jistě, že jsou. To o čem já píši je blokování nevhodného obsahu dle uživatelských kritérií a to vázané na účet. Uděláte děcku doma na PC účet na googlu a nastavíte mu kritéria. V uživatelském nastavení profilu znemožníte pod USEREM (Vaše dítě) intalace jiného browseru než např. Chrome a předpokládáte, že si dítě nezvládne nastavit jiný vyhledávač. Dá se to nastavit pevným nastavením výchozí stránky a znemožněním přihlásit se v takovémto typu session jako jiný uživatel. Uvedené řešení by mělo bezpečnostní propojení (omezení) jednak účtu a jednak nastavení (omezení) browseru tedy Chrome. Je to komplikovnější ale proveditelné.
 
Mám takový pocit, že už na tom začal pracovat: http://www.27bslash6.com/p2p2.html
To bych řekl, že je dost obrat ve vaší argumentaci.
Že se dá rodičovský zámek nějak zresetovat (a potom shlédnout porno a potom tvrdit, že jsem omylem nastavil settopbox do továrního nastavení) to neprotestujete?
Že když mám zamknuté pornokanály, že stejně může jít onanovat ke kamarádovi, to neprotestujete?
Že by se to dalo určitě vykoumat, že si seženu jiný settopbox a na chvíli je vyměním (řekněme obdoba přebootování do nějaké live distribuce), to neprotestujete?
Že se to dítě pokusí obejít už z trucu, to neprostestujete?
Proč tyhle argumenty neplatí v tomhle případě?
naucte se vyuzivat funkci googlu. kdyz vas irituji nejake vyhladavace ve vysledcich tak si je zakazte. ja mam takto vyblokovane vsechny stupidni srovnavace cen od heureky po zbozi a tudiz ve vysledcich hledani mam jen relevantni odkazy na konkretni zbozi a ne spam od hloupych srovnavacu.
Asi jsi nepochopil princip ale já ti ho rád objasním ;)
Utajovaný algoritmus je něco co ovlivní výsledek tvého vyhledávání aniž by sis ty sám určoval ta pravidla. Neovlivníš to. Něco hledáš = nenajdeš to, protože ti někdo zamezil přístup k TOMU a ty to neovlivníš. O Tom to je.
To co navrhuji já je ovlivnění výsledků vyhledávání tebou. Podle tvých vlastních kritérií. Pokud má třeba tvé dítko (zřejmě je ještě nemáš) plný přístup k netu tak ty samozřejmě víš na co může narazit a chceš mu nějaké stránky zablokovat pak jednoduše jemu přístu NĚKAM (dle tvé volby) omezíš. Jsi rodič = jsi za něj odpovědný. Až bude dospělý ať si surfuje, kde chce. Tohle je ta výchova. Ve výchově je zásah rodiče alfou a omegou. Bez zásahů dítě nevychováš. Pokud ty sám nebudeš chtít všude narážet na péčko tak nastavíš to filtrování obsahu sám sobě. Pokud chceš .. JE TO TVÁ VOLBA. Nikdo tě nenutí
Už ten rozdíl chápeš ?
No u 6ti letého dítěte vyvstává jedna otázka .. co je to za rodiče, že ho nechá v tomto věku bez dozoru brouzdat po internetu. Tak rovnou posílejte dítě v tomto věku na nákup přes půlku Prahy.
Internet je relativně bezpečnější v tom, že vám ratolest nezabije žádný pedofil, ale bude mu psát oplzlosti (ne to také není v pořádku). Internet je prostě jen stupidní nástroj, který se dá použít a zneužít. Pokud jste tak naivní, že nějaký systém zabrání přísunu škodlivého obsahu, tak místo mě plaťte můj příspěvek z daní na fau pax projekty jako je cenzurace internetu, červené tlačítko a podobné nesmysly, co akorát stojí peníze a nejsou k ničemu.
Čína má vůči vnějšímu světu firewaly, cenzuruje a zakazuje vše s obdivohudným úsilím a náklady. Informace, které nechtějí aby unikli , se stejně dostanou ven mezi lidi... pokud vám i toto nestačí jako argument k nesmyslnosti "cenzur" a "blokování", tak už nevím. Jedině speciálně pro vás napíšu článek "Jak v pěti minutách obejít ochrany zabraňující přístupu k obsahu na internetu, jejihž vývoj stojí milióny dolarů ročně"
Onen "tajný" algoritmus může klidně obsahovat seznam "nevhodných" webů (pro někoho nevhodných). V podstatě by tak šlo o omezení přesněji regulaci toku informací dle např. ideového obsahu. Současně může "utajovaný" algoritmus zahrnout i filtrování a upřednostnění některých webů, které si takové upřednostnění potají zaplatí. Pro Google to může být velmi nepopulární záležitost protože se tak usměrňuje fulltextové vyhledávání dle nějakých, uživatelům "neznámých", kritérií a výsledek vyhledání je jim pak vnucen.
Kdyby raději Google udělal uživatelské algoritmy vázané na účet uživatele a ten by tak mohl blokovat určitý typ obsahu sám podle své volby. Např. rodič by pro účet svého dítěte nastavil rodičovskou kontrolu a díko by se pak nedostalo na warez, porno atp. Podobné služby existují ale jsou poměrně nespolehlivé a navíc placené.
Jo a tvoje desetiletý dítko vleze na první anonymizer a máš peška. Popřípadě si stáhne portable verzi jinýho prohlížeče, vypálí si live cd nějakýho linux distra atd atd. A nebo finálně si půjde zaonanovat ke kamáradovi, jehož otec nevymýšlí totální kraviny a má přístup na net s velkým P.
Možná sem byl totální grázl (nebo průměrné dítko), ale jedno ti řeknu rovnou: Když mi někdo zakazoval, tak se to pokoušel obejít, už jen z trucu, protože mi neměl "nikdo co zakazovat". Takže tebou napsaný (nesmyslný) příklad je dobrý k vychování geeka z tvě ratolesti.
Díky za pochvalu i poznámky. Zajímala by mě detekce strojového překladu. V nějakém divokém snu bych si snad ještě dovedl představit řekněme detekci textu strojově přeložného daným překladačem (např. Google Translator), přinejmenším primitivně by se to dalo zkusmo přeložit zpátky a hledat duplicitu. Ale obecná detekce strojového překladu? Existují na to nějaké lingvistické studie, patenty a pod.?
To s televizí nechápu. Normální kanály jsou filtrované a pornokanály mohu blokovat rodičovským zámkem. Čímž sice sice svým malým dětem omezuji přístup k informacím, ale já už jsem holt takový diktátor.
No třeba ty hromady mrtvol bohatě stačí. Nebo třeba videa kde tu mrtvolu z živého člověka nějakým způsobem vyrábějí.
Zajímá, nezajímá - můžou na to náhodou narazit. A proto je dobré mít nějakou základní filtraci, která tohle riziko zmenšuje.
Platí pořád, jenom se tato diskuze dostala do úrovně, ze které jsem se pokoušel opatrně vycouvat.
Veškeré tyto blokace lze obejít, chybí tu globální podpora standartů pro přístup k obsahu. (Vzhledem k politické situaci a stavu společnosti musím řícit, že naštěstí takové pokusy nejsou). Stačí se podívat na ACTA, které definuje uživateli jen povinnosti a prodejci zase jen práva na cokoli.
U šestiletých dětí nehrozí taková sofistikovanost pokusů o obejití blokace. U starších už ano. Hlavní je nepodceňovat snahy ratolestí a jejich znalosti. Skoro každý puberťák dnes zná anonymizer, protože ve spoustě škol jim zakazují facebook. Navíc leaknuté blacklisty jsou prakticky seznamem stránek se "zajímavým" obsahem na které se dostanete s minimálním úsilím.
Ani ne, spam se dá poznat jednoduše .. nabízí "úžasně přesně co člověk hledá" .. a že je někdo natolik vypatlanej, že na to klikne je jeho mínus .. má občas používat mozek. Navíc spam je i užitečnej, když nachází jen stránky ala download free crack serial, tak je jasný, že hledá špatně ...
On to kdysi neveřejně dělal i seznam.cz. Tj. ovlivňoval pořadí výsledků ve fulltextu byť to kusi a holky popírají. Už to nedělá. Tohle se každý bojí veřejně deklarovat. Pochopitelně. Tady se ale nyní velmi fikaně vytváří nástroj, který to "HÝBÁNÍ" fultextem zdůvodní a tam už se nějaké placené usměrnění skryje mnohem lépe.
Tak na jednu stranu nikdy nic blokovat. Na druhou stranu - nikdy nenechat bez dozoru. Zajímavé.
Platí stejná logika i u televize? Tedy, že pornokanály rodičovským zámkem blokovat nesmím a stejně tak nesmím nechat sedět dítě u televize samotné?
Je pochopitelně otázka, jak jsou které blokovací postupy účinné. Nicméně je dobré si uvědomit, že většina dětí (do deseti let to bude drtivá většina) nemá dost schopností na to, jak ty postupy obcházet. A je dobré si uvědomit, že v mnoha případech jde o to zabránit spíše náhodnému přístupu k nevhodnému obsahu - než bránit 13letému synovi, aby neviděl žádné porno, když už je v pubertě a vidět ho CHCE.