Nevím, jestli fungují jako google, ale moc bych tomu nevěřil. On totiž Google má od začátku zásadní a důležitou funkci omezení indexace. Každý web si může pomocí robots.txt (případně meta tagů v hlavčce stránky) nastavit který konkrétní obsah se má indexovat (ve výchozím stavu veškerý) a který ne. Takže pokud bych třeba provozoval pracovní portál a nechtěl bych, aby si google moje výsledky prezentoval ve svých výsledcích hledání můžu to snadno a rychle dosáhnout. Proto nikdo nemůže říct, že ho google vykrádá, pokud o to nestojí nemusí na googlu být vůbec.
No a jde takovýto nesouhlas se zařazením vyjádřit i v tomto případě ? To je podle mě ten rozdíl mezi vykrádáním a odkazováním s citacemi.
Tady bych si troufl tvrdit, že určitě chtěli, aby to indexované bylo. Nevím přesně kolik návštěvníků jim přes google chodí, ale standardně i na takové větší weby chodí většina návštěvníků přes google.
Pokud odříznou google, odříznou velkou část návštěvníků a potencionálních zájemců o práci (třeba i nadpoloviční), v tomto směru jim google pomáhá. Kdyby jim nepomáhal, tak ho můžou kdykoliv odříznout. Jenže můžou odříznout i chcipraci.cz ?
Tak samozrejme pomoci robots.txt jde rict i to, kdo indexovat muze a kdo nikoliv (tedy i to, ze Google se neodrizne), pripadne jsou i dalsi techniky, jak onu cinnost zneprijemnit...
Vykriky typu "jejka, on nas nekdo novy zindexoval a my to nechteli" pusobi spise usmevne... kdyz tam maji jednoduchou wildard politku :-)
Takovych se najde... treba betaBot robots.txt ignoruje zcela ;-)
Robots.txt neni zadny standard a navic je urcen (primarne) k tomu, aby crawler nespadl do pasti, tj. nekonecne a zbytecne smycky, napr. pri prochazeni kalendare az pred narozeni Krista.
Zabranit prochazeni weboveho serveru je netrivialni uloha, zvlaste pokud proti vam stoji profesionalni nastroj schopny simulovat cele mesto virtualnich lidicek. Jinak podobne ne-uplne-koser systemy pouzivaji take "solidni" firmy, aby overily, ze jejich crawlerum nepodvrhujete jiny obsah nez pak davate lidem.