Názory k článku Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

Podle hodnocení
Podle vláken
Nejnovější

24. 4. 2008 14:54

Medvěd

> Co to je? Kdo 'vymyslel normu' že GET se může používat > jen pro 'neškodné' formuláře?

R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach a T. Berners-Lee -- viz RFC 2616 :-))
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 15:33

Ondrej Páleš

Takový veselý chlapík bude v tom případě implicitně na blacklistu u všech mnou provozovaných webů. Akorát trocha práce navíc, výsledek nula. K čemu že to všechno? X let se tvůrci stránek učí optimalizovat pro vyhledavače (a nelžeme si, je to hlavně pro Google) a tím mu práci usnadňovat a zároveň dávat najevo, že stojíme o to, aby nás indexoval. A teď se nakonec Google přizpůsobí a to takovým způsobem, že začne všechny obtěžovat? Vydělají na tom jenom ti, kteří na Google až doteď kašlali. Abych nebyl zle pochopen - nejsem odpůrcem pokroku, líbí se mi, že se Google nadále zdokonaluje. Ale cesta "pokusného" vkládání dat do formulářů mi přijde jako pořádná prasárna.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 11:06

Ivo (neregistrovaný)

V článku http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html (je mimochodem dostupný na dvě kliknutí z tohoto článku) je uvedeno, že se týká jen formulářů s metodou GET, která je definována jako SAFE - neměla by vyvolávat na stránce vedlejší efekty (viz. http://en.wikipedia.org/wiki/HTTP#Request_methods), takový formulář by rozhodně neměl nic vkládat do databáze. Obavy ze spamování jsou pouze neopodstatněným vyvoláváním paniky. Dále je tam uvedeno, že budou ignorovány jakékoliv formuláře, které obsahují pole vyžadující osobní údaje (login, heslo, userid, kontakt apod.)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 8:49

Ondrej Páleš

To bude Google zkoušet vkládat slova do formulářů i v diskuzních fórech, knihách návštěv, chatech...? To se teď captcha stane opravdu povinností? Snad ne...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 8:03

twmj (neregistrovaný)

Pokud narazí na rozdíl, bude se stránkou dále pracovat; nejdřív zjistí, zda vůbec jde o nějak relevantní obsah – asi nemá cenu indexovat stránku obsahující odpověď na vyhledávání, že bohužel nic nalezeno nebylo;

mno stává se mi poslední dobou (hlavně když hledám odkazy na konkrétní produkty), že mi google nabídne odkaz na další vyhledávač, který ovšem zahlásí pouze, že nic nenalezl. takže pokud zlepší algoritmus tak, aby toto minimalizoval, budu jenom rád (:
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 8:11

Petr (neregistrovaný)

Konečně, znám plno webů, které mají vyhledávání přes formuláře (vyberte okres, město, typ filmu,...) a tak jejich mnohdy zajímavá data chyběla. Doufám, že se to osvědčí.

Samozřejmě, někde se asi dostane kam nemá... :o)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 10:45

anonymní

Takže když mám na stránce rozbalovací seznam s akcemi a políčko na e-mail a tlačítko pro odeslání, odešle mi Google spoustu mailů přes PHP mail? Že bych tam teda konečně dodělal i test, zda zadaný text vypadá jako e-mail? :-D
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 15:46

Ondrej Páleš

Díky za toto upřesnění. Tím pádem beru zpátky co jsem před chvílí napsal výše:-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 18:02

Jaromir

Pouze reaguji na to, co jsem si přečetl v článku.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 23:58

anonymní

Jako hluboký web se berou i informace, které jsou více vnořené a také které jsou přístupné přes přihlášení. Osobně bych uvítal, kdyby Gooooogle šel do větší hloubky.
Pro zajímavost, někde jsem četl, že hluuboký web obsahuje, pokud se nemýlím, 95 % informací (tedy Gooooogle indexuje jen 5 % webu).
Navíc např. NASA má ve svých databázích řádově více informací, než je na celém internetu. A to neplatí jen pro NASA.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 4. 2008 8:45

Petr (neregistrovaný)

Možná vysvětlení článku:
a. Google neví, co dělá.
b. Autor článku neví, co píše.

Co z toho je pravděpodobnější?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 4. 2008 10:54

bez přezdívky

No jo, ale zase koho zajímá 95% obsahu databází NASA? Mám doma také 1,7Tb dat, což je řádově víc než standardní člověk pracující s počítačem a mám tam také jen hromady smetí které je mi líto smazat, co kdyby se jednou hodily:-P...?

Google před rokem prohlásil že má naindexováno cca 300Tb internetu a to indexuje víc jak 10 let, kdyby prý chtěl naindexovat celý obsah internetu tak mu to zabere ještě kolem 130 let při podmínce že se web nebude mezitím dále rozvíjet... A internet je pořád ještě méně dat než kolik máme doma všichni na discích.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 4. 2008 15:06

Jaromir

Google ví až moc dobře, co dělá, otázka je, co z toho budu mít já, či jaký je následek na mě.

To je prostě špatně položená otázka.

Otázka by měla znít, jestli praktiky, zmíněné v článku, bude Google dělat a nebo ne, a to ukáže až čas...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 4. 2008 12:27

gofry

Zaujímalo by ma, ako google zistí, že vo formulári sa vyžadujú osobné údaje. Ak to bude kontrolovať iba na atribút "name" a či sa náhodou nerovná niečomu ako "login", "loginname" a pod., tak to asi veľmi efektívne nebude.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 4. 2008 18:13

Bilbo (neregistrovaný)

Staci pridat par zaznamu do robots.txt a googlebot formular neodesle ....
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 4. 2008 18:14

Bilbo (neregistrovaný)

Staci ho pridat do "blacklistu" v robots.txt (zakazat mu tam indexovbat formulare ...) a je vymalovano ... googlebot robots.txt respektuje
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 14:07

Petr (neregistrovaný)

Co to je? Kdo 'vymyslel normu' že GET se může používat jen pro 'neškodné' formuláře? Můžu tak mít udělané třeba pokračování v objednávce na shopu (bude plno 'fake' nedokočených objednávek), můžu tak mít udělané přihlašování k uživatelskému účtu (Google se trefí do nějkého reálného loginu a hesla nebo naopak zablokuje login pro moc špatně zadaných hesel), můžu mít ankety udělané pomocí formuláře právě proto aby mi je nezkreslovaly vyhledávače falešnými prokliky...
Našel bych kvanta důvodů proč není dobrý nápad aby vyhledávače formuláře proklikávaly. Jediná situace kdy by to mělo smysl by bylo, abych byl takový formulář s povoleným proklikem pro vyhledávače nějak jasně odlišen a já mohl při psaní stránek určit které může vyhledávač zkusit.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 5. 2008 17:01

benghi (neregistrovaný)

...to se nedá říct jinak! Nerad používám sprostý slova, ale tohle byl fakt TALENT! Totiž, oni si u google neuvědomili víc věcí a to už v minulosti. Kupříkladu že vůbec nestojím o to, aby mi nějakej vyhledávač indexoval stránky, kdo o nich má vědět, ten o nich ví a ostatní ať jdou přesně tam.

robots.txt nejsou za současný situace žádná výhra, protože bych předpokládal, že pokud po requestu na robots.txt odpovím 404kou, pak by to mělo znamenat, že nestojím o nějaký indexování mých stránek (tudíž že má jít robot tam, odkud přišel), nikoliv že si tam může řádit jak černá ruka, jak si to vysvětlují patrně všechny vyhledávače.

Druhák, pokud si myslíte, že něco pořešíte tím, že nacpete hned do kořenu robots.txt, tak tím nevyřešíte nic, neb robots.txt musíte poslat kdykoliv, kdy je v requestu někde slovo robot. Na vlastním serveru to není nějak zásadní problém, ale na většině běžných hostingů je to problém neřešitelnej.

Dotřetice, pokud si myslíte, že robot bude akceptovat robots.txt, který mu zakazují hrabat kamkoliv, pak v případě googlu opět nemáte pravdu. Musíte mu nechat kořen + nějakej adresář, kde se nažere, jinak vaše robots.txt směle ignoruje.

Dost dlouho mi trvalo, než jsem se s vyhledávačema vypořádal, nakonec jsem nechal hledat v jednom jediným adresáři a jak tam něco sáhne, tak jde IP toho, co tam sáhne, na firewalu okamžitě do deny a není cesty zpět. Dtto pro některý uživatelem neklikatelný odkazy. Nedá se nic dělat, traffic, co napáchal google, byl asi trojnásobný proti tomu, co napáchali živí uživatelé, což dlouhodobě odmítám platit.

Tohle ale můžu udělat u serveru doma, bohužel ne u serveru na hostingu, kde mi tedy google skutečně zpříjemňuje život.

Pokud uvážím, že už tak agresivní potvora bude ještě agresivnější, tak vážně uvažuju o ukončení všech svých internetových aktivit a soudě z toho, co jsem se dozvěděl od jinejch lidí, nejsem sám. Výsledkem činnosti googlu pak bude, že na webu budou akorát pubošský stránky pochybnýho obsahu, který ovšem budou velmi dobře zindexovaný.

BTW ještě jedna poznámka na okraj. Z čeho má google příjmy? Když se na jejich stránky podíváte, je jasný, že z reklamy to nebude. Provoz takovýho monstra nebude levnej, čili vzniká otázka zásadního významu - kdo ten krám proboha platí!?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 17:27

anonymní

no jo, hlavne vsechno pochopit, ze jo ?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 15:25

anonymní

nikoliv, pomoci americkeho radaru si to precte na dalku primo z harddisku vaseho serveru
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 15:59

mad4 (neregistrovaný)

jak se rika "nesud dne pred vecerem" (plati i pro ostatni prispevky v tomhle duchu vyse)

google neni zadna huraakce firma, beta verze jejich produktu byly az doposud vzdy "dokonale" odladeny a osetreny, proc by tomu tak nemelo byt i ted?!?!?
myslite, ze by tech x desitek/stovek lidi co na tomhle pracuji nenapadlo, ze neni dobry napad spamovat fora apod.?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 8:53

Jaromir

Pro mě tento "nový" styl "vyhledávání" :( rozhodně přínosný nebude. Nechápu, jak se Google může uchýlit k takovým praktikám jako je vyplňování formulářů nějakými daty ze stránky, co to jako je? Nová éra SPAMování a plnění databází balastem?

Na to se opravdu musí každý programátor "těšit" :). Jestli to Google začne provádět, tak se přesune na stranu SPAMerů diskuzních fór! Tohle má být jako firma "don't be evil"? No to snad ne!

A článek je napsán skoro v optimistickém duchu :). Co až budete mít na stránkách kontaktní formulář, a Google vám, přes něj, začne "posílat" zprávy typu vaše jméno a příjmení, "Kontakty" atd.

Že budu muset zavádět Captcha obrázky kvůli SPAMerům se čekat dalo, ale kvůli Google a všude? Tak to už je opravdu síla.

Jestli to zavedou, tak přibude do robots.txt hodně stran.

Tý jo, vyplňování náhodných slov do formulářů, to snad není pravda, jim pošlu fakturu za procesorový čas a místo na HDD hajzlíkům jedněm :(. Pěkně se vybarvil Google, pěkně, přešel na přesně opačnou stranu k lidem, kteří dokážou člověku pěkně znepříjemnit život.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 10:14

PeTe (neregistrovaný)

tesim se na diskuzni prispevky od Googlebota.. predstavuju si ho jako velice rozumneho a vtipneho chlapika, s nim bude radost si povidat;-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 21:21

Ash (neregistrovaný)

No to to ale budete mít udělané špatně :) Za těmito účely se používá POST.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 14:21

Vojtěch Rylko (neregistrovaný)

V budoucnu se bude Google Bot dokonce i registrovat na weby, aktivně přispívat do diskuzí a sledovat reakce, ověřova e-shopy namátkovou objednávkou zboží a bude zkoušet náhodilé bankovní transakce. Hurá :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 4. 2008 15:35

Ondrej Páleš

Na tu radarovou paranoiu už by měli vědci vymyslet sérum. Tohle už je vážně moc...
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Názory k článku Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu

Dále u nás najdete