Když už jsme u těch fultextů, zkuste si ověřit soubor:
http://ad.lupa.cz/robots.txt
To je jenom takové malé odbočení, aby Ti co zde mají reklamu pochopili kdo jim na ní kliká.
Na to jsou metodiky IAB, ktere rikaji, co vsechno se ma nebo nema zapocitavat. Nevidim duvod, proc zakazovat pristupy na reklamu robotum, jen je potreba, aby byly identifikovatelne kvuli odfiltrovani ze statistik.
Je možné pouštět roboty na Web proto, abychom je následně mohli odhalovat a filtrovat.
Zda to reklamní systém dělá a jak spolehlivě se ale nikdy nedozvíme, tedy pokud nenajdeme soubor robots.txt, který může kdokoliv stáhnout a přečíst.
Obvykle stejne neskonci kampan presne na objednanem poctu zobrazeni. A to jeste k nejvetsim nepresnostem dochazi tehdy, kdyz je reklama distribuovana pres nekolik redakcnich systemu, tam se pocty lisi o cela procenta. Krom toho ten /robots.txt opravdu neni tak dulezity, je to spis veci auditu.
To je normální rasismus, navíc stavějící celou vědeckou disciplínu identifikace robotů :-) na hlavu.
Rasismus spočívá v tom, že nezaregistrujete menšinové browsery, což vás ale asi netrápí. Co by vás ale trápit mohlo, je existence velkého počtu robotů, které v user_agent mají Mozilla.
Navíc tyhle metody vedou k tomu, že když se zítra objeví browser FinalUltraWebBrowser a získá 80% trhu, bude mít v user_agent co? Správně, Mozilla a MSIE. Nejlépe nějak tak, aby se spolehlivě detekoval jako všechny existující browsery:
Mozilla/4.0 (compatible; MSIE 6.0; MSIE 5.5; Windows 2000; FinalUltraWebBrowser 1.2.3) Opera 7.0 [en]
BTW, všimněte si, že tam je MSIE *dvakrát*, mám to z logu, Opera to asi fakt tahle posílá.
Roboti, kteří mají v UA mozilla, jsou ošetřeni také - právě kvůli nim tam jsou testy na řetězec bot, crawler atd. (řetězce jsem vybral podle seznamu UA několika set nejpoužívanějších robotů).
Víte o nějakém menšinovém prohlížeči (tím myslím nějaký, který někdo rálně používá), který nemá v UA Mozilla ANI Opera? Podle mých statistik jsou reálně používané IE (má řetězec mozilla), NN (má řetězec mozilla), Mozilla/Phoenix (má řetězec mozilla) a Opera (má řetězec Opera, někdy i mozilla).
Netvrdím, že ten skript je úplně stoprocentně spolehlivý, však je taky hodně krátký, ale osobně ho používám pouze na vpisování metatagů do stránky, když je chce robot, a na filtrování statistik, tam nepřesnost v řádu desetiny procenta nevadí...
Sazmořejmě to závisí na tom, co považujete za reálně používané. Texmodové browsery nikdo za reálně používané nepovažuje, taky proto, že při přístupu na tutéž stránku vám lynx udělá jeden GET, zatímco MSIE třeba 20 (rámy, externí styly, obrázky), takže naivním zpracování logů dopadne lynx bídně, i kdyby byl používaný z 60%.
Ale tohle by byl dlouhý flamewar. Chtěl jsem poukázat na problém, že když webmasteři mění chování stránek podle toho, jestli user_agent obsahuje Mozilla, MSIE či Opera, tak to vede hlavně k tomu, že to pak vývojáři browserů (a robotů) cpou do user_agent, aby i jejich browser (robot) dostal tu správnou verzi stránek. Tím vznikají identifikátory, v nichž se Opera maskuje za MSIE maskující se za Netscape maskující se za Mozillu, a celá myšlenka user_agent řetězce jde do kytek.
Divil byste se, kolik robotů má user_agent jako MSIE, bez nějakých změn (já např. takhle maskuju wget skoro vždycky :o)
Ja zase vidim v logu crawleru, ze robots.txt taha a ridi se jim.
Pokud mate opacnou zkusenost, napiste mi presne URL do mailu a podivame se na to - muze to byt chyba u nas (spatne parsovani), u vas (nekorektni format) ci pri prenosu (nedostupnost, cloaking, divne DNS).
Pokud budete jen anonymem, ktery cosi nekonkretniho rika na miste, kam to nepatri, nic se nevyjasni.