Takový veselý chlapík bude v tom případě implicitně na blacklistu u všech mnou provozovaných webů. Akorát trocha práce navíc, výsledek nula. K čemu že to všechno? X let se tvůrci stránek učí optimalizovat pro vyhledavače (a nelžeme si, je to hlavně pro Google) a tím mu práci usnadňovat a zároveň dávat najevo, že stojíme o to, aby nás indexoval. A teď se nakonec Google přizpůsobí a to takovým způsobem, že začne všechny obtěžovat? Vydělají na tom jenom ti, kteří na Google až doteď kašlali. Abych nebyl zle pochopen - nejsem odpůrcem pokroku, líbí se mi, že se Google nadále zdokonaluje. Ale cesta "pokusného" vkládání dat do formulářů mi přijde jako pořádná prasárna.
V článku http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html (je mimochodem dostupný na dvě kliknutí z tohoto článku) je uvedeno, že se týká jen formulářů s metodou GET, která je definována jako SAFE - neměla by vyvolávat na stránce vedlejší efekty (viz. http://en.wikipedia.org/wiki/HTTP#Request_methods), takový formulář by rozhodně neměl nic vkládat do databáze. Obavy ze spamování jsou pouze neopodstatněným vyvoláváním paniky. Dále je tam uvedeno, že budou ignorovány jakékoliv formuláře, které obsahují pole vyžadující osobní údaje (login, heslo, userid, kontakt apod.)
To bude Google zkoušet vkládat slova do formulářů i v diskuzních fórech, knihách návštěv, chatech...? To se teď captcha stane opravdu povinností? Snad ne...
Pokud narazí na rozdíl, bude se stránkou dále pracovat; nejdřív zjistí, zda vůbec jde o nějak relevantní obsah – asi nemá cenu indexovat stránku obsahující odpověď na vyhledávání, že bohužel nic nalezeno nebylo;
mno stává se mi poslední dobou (hlavně když hledám odkazy na konkrétní produkty), že mi google nabídne odkaz na další vyhledávač, který ovšem zahlásí pouze, že nic nenalezl. takže pokud zlepší algoritmus tak, aby toto minimalizoval, budu jenom rád (:
Konečně, znám plno webů, které mají vyhledávání přes formuláře (vyberte okres, město, typ filmu,...) a tak jejich mnohdy zajímavá data chyběla. Doufám, že se to osvědčí.
Takže když mám na stránce rozbalovací seznam s akcemi a políčko na e-mail a tlačítko pro odeslání, odešle mi Google spoustu mailů přes PHP mail? Že bych tam teda konečně dodělal i test, zda zadaný text vypadá jako e-mail? :-D
Jako hluboký web se berou i informace, které jsou více vnořené a také které jsou přístupné přes přihlášení. Osobně bych uvítal, kdyby Gooooogle šel do větší hloubky.
Pro zajímavost, někde jsem četl, že hluuboký web obsahuje, pokud se nemýlím, 95 % informací (tedy Gooooogle indexuje jen 5 % webu).
Navíc např. NASA má ve svých databázích řádově více informací, než je na celém internetu. A to neplatí jen pro NASA.
No jo, ale zase koho zajímá 95% obsahu databází NASA? Mám doma také 1,7Tb dat, což je řádově víc než standardní člověk pracující s počítačem a mám tam také jen hromady smetí které je mi líto smazat, co kdyby se jednou hodily:-P...?
Google před rokem prohlásil že má naindexováno cca 300Tb internetu a to indexuje víc jak 10 let, kdyby prý chtěl naindexovat celý obsah internetu tak mu to zabere ještě kolem 130 let při podmínce že se web nebude mezitím dále rozvíjet... A internet je pořád ještě méně dat než kolik máme doma všichni na discích.
Zaujímalo by ma, ako google zistí, že vo formulári sa vyžadujú osobné údaje. Ak to bude kontrolovať iba na atribút "name" a či sa náhodou nerovná niečomu ako "login", "loginname" a pod., tak to asi veľmi efektívne nebude.
Co to je? Kdo 'vymyslel normu' že GET se může používat jen pro 'neškodné' formuláře? Můžu tak mít udělané třeba pokračování v objednávce na shopu (bude plno 'fake' nedokočených objednávek), můžu tak mít udělané přihlašování k uživatelskému účtu (Google se trefí do nějkého reálného loginu a hesla nebo naopak zablokuje login pro moc špatně zadaných hesel), můžu mít ankety udělané pomocí formuláře právě proto aby mi je nezkreslovaly vyhledávače falešnými prokliky...
Našel bych kvanta důvodů proč není dobrý nápad aby vyhledávače formuláře proklikávaly. Jediná situace kdy by to mělo smysl by bylo, abych byl takový formulář s povoleným proklikem pro vyhledávače nějak jasně odlišen a já mohl při psaní stránek určit které může vyhledávač zkusit.
...to se nedá říct jinak! Nerad používám sprostý slova, ale tohle byl fakt TALENT! Totiž, oni si u google neuvědomili víc věcí a to už v minulosti. Kupříkladu že vůbec nestojím o to, aby mi nějakej vyhledávač indexoval stránky, kdo o nich má vědět, ten o nich ví a ostatní ať jdou přesně tam.
robots.txt nejsou za současný situace žádná výhra, protože bych předpokládal, že pokud po requestu na robots.txt odpovím 404kou, pak by to mělo znamenat, že nestojím o nějaký indexování mých stránek (tudíž že má jít robot tam, odkud přišel), nikoliv že si tam může řádit jak černá ruka, jak si to vysvětlují patrně všechny vyhledávače.
Druhák, pokud si myslíte, že něco pořešíte tím, že nacpete hned do kořenu robots.txt, tak tím nevyřešíte nic, neb robots.txt musíte poslat kdykoliv, kdy je v requestu někde slovo robot. Na vlastním serveru to není nějak zásadní problém, ale na většině běžných hostingů je to problém neřešitelnej.
Dotřetice, pokud si myslíte, že robot bude akceptovat robots.txt, který mu zakazují hrabat kamkoliv, pak v případě googlu opět nemáte pravdu. Musíte mu nechat kořen + nějakej adresář, kde se nažere, jinak vaše robots.txt směle ignoruje.
Dost dlouho mi trvalo, než jsem se s vyhledávačema vypořádal, nakonec jsem nechal hledat v jednom jediným adresáři a jak tam něco sáhne, tak jde IP toho, co tam sáhne, na firewalu okamžitě do deny a není cesty zpět. Dtto pro některý uživatelem neklikatelný odkazy. Nedá se nic dělat, traffic, co napáchal google, byl asi trojnásobný proti tomu, co napáchali živí uživatelé, což dlouhodobě odmítám platit.
Tohle ale můžu udělat u serveru doma, bohužel ne u serveru na hostingu, kde mi tedy google skutečně zpříjemňuje život.
Pokud uvážím, že už tak agresivní potvora bude ještě agresivnější, tak vážně uvažuju o ukončení všech svých internetových aktivit a soudě z toho, co jsem se dozvěděl od jinejch lidí, nejsem sám. Výsledkem činnosti googlu pak bude, že na webu budou akorát pubošský stránky pochybnýho obsahu, který ovšem budou velmi dobře zindexovaný.
BTW ještě jedna poznámka na okraj. Z čeho má google příjmy? Když se na jejich stránky podíváte, je jasný, že z reklamy to nebude. Provoz takovýho monstra nebude levnej, čili vzniká otázka zásadního významu - kdo ten krám proboha platí!?
jak se rika "nesud dne pred vecerem" (plati i pro ostatni prispevky v tomhle duchu vyse)
google neni zadna huraakce firma, beta verze jejich produktu byly az doposud vzdy "dokonale" odladeny a osetreny, proc by tomu tak nemelo byt i ted?!?!?
myslite, ze by tech x desitek/stovek lidi co na tomhle pracuji nenapadlo, ze neni dobry napad spamovat fora apod.?
Pro mě tento "nový" styl "vyhledávání" :( rozhodně přínosný nebude. Nechápu, jak se Google může uchýlit k takovým praktikám jako je vyplňování formulářů nějakými daty ze stránky, co to jako je? Nová éra SPAMování a plnění databází balastem?
Na to se opravdu musí každý programátor "těšit" :). Jestli to Google začne provádět, tak se přesune na stranu SPAMerů diskuzních fór! Tohle má být jako firma "don't be evil"? No to snad ne!
A článek je napsán skoro v optimistickém duchu :). Co až budete mít na stránkách kontaktní formulář, a Google vám, přes něj, začne "posílat" zprávy typu vaše jméno a příjmení, "Kontakty" atd.
Že budu muset zavádět Captcha obrázky kvůli SPAMerům se čekat dalo, ale kvůli Google a všude? Tak to už je opravdu síla.
Jestli to zavedou, tak přibude do robots.txt hodně stran.
Tý jo, vyplňování náhodných slov do formulářů, to snad není pravda, jim pošlu fakturu za procesorový čas a místo na HDD hajzlíkům jedněm :(. Pěkně se vybarvil Google, pěkně, přešel na přesně opačnou stranu k lidem, kteří dokážou člověku pěkně znepříjemnit život.
V budoucnu se bude Google Bot dokonce i registrovat na weby, aktivně přispívat do diskuzí a sledovat reakce, ověřova e-shopy namátkovou objednávkou zboží a bude zkoušet náhodilé bankovní transakce. Hurá :)