Vlákno názorů k článku Až 12 procent webu tvoří pornografie od Michal Illich - Google ma v databazi obsahy priblizne 600 milionu...

  • Článek je starý, nové názory již nelze přidávat.
  • 11. 12. 2000 11:08

    Michal Illich (neregistrovaný)
    Google ma v databazi obsahy priblizne 600 milionu stranek, k dalsim 700 milionum je teoreticky schopen vratit URL (na zaklade popisku z dalsich stranek), jak jste prisel k 1600 milionum, nevim.
    Co se tyce celkove velikosti internetu, tak ta nebude zase nejak diametralne vetsi. Jak Google, tak Fast maji velmi dobre pokryti. Zalezi samozrejme na tom, co jeste za "rozumnou stranku" povazujeme - budeme pocitat i stranky s otaznikem v url? Budeme pocitat vystupy z hledacu a databazi? (tech je samozrejme nekonecny pocet) Jak se budeme vyrovnavat s duplicitami? Co castecne duplicity? atd.
  • 11. 12. 2000 11:31

    Ladislav Zajicek (neregistrovaný)
    U Googlu se staci podivat na jeho titulni stranku. Dnesni udaj - cca 1,3 miliardy stranek.
    Pocty stranek se odhaduji na hodne miliard (cetl jsem i udaj o vice nez 10 miliardach). Mezi nimi nejsou stranky prohledavacu. Ale z firemnich - dynamicky generovanych - databazi ano. Neni to nijak zvlast prekvapive cislo, pokud si uvedomite, ze existuje hodne pres milion instalovanych WWW serveru.
  • 11. 12. 2000 17:03

    Ladislav Zajicek (neregistrovaný)
    Upresnuju sama sebe. Na adrese http://www.brightplanet.com/ najdete informace od stejnojmenne firmy, ktera se hrouzi do hlubin Webu. Podle ni je stranek generovanych z databazi 500 miliard (7,500 TB). Tem rika Deep Web.
    Surface Web jsou staticke stranky, kterych je podle firmy miliarda (to ale tvrdi ona). Jinak tato firma nabizi prohledavac Deep Webu, zvany LexiBot (mesic na zkousku, pak 90 USD). Vyhledani odpovedi muze trvat pres hodinu.
    Na zaklade svych technologii sestavila firma katalog http://www.completeplanet.com/ CompletePlanet - neni bez zajimavosti.
  • 11. 12. 2000 21:48

    Michal Illich (neregistrovaný)
    CompletePlanet neni nic jineho nez obycejny hledac, ktery je v katalogu veden lidmi napsanou kategorizaci slov, totez dela Goto nebo Aewi (tohle jmeno bohuzel komolim). Kdyz jsem se na CP proklikal do sekce Search Engines, zjistil jsem, ze to neni schopne najit ani jediny vyhledavac.

    Pokud vas toto tema zajima, podivejte se na Hubat - to je perfektne zvladnuty automaticky kategorizator (dokonce je schopen vydestilovat povedene popisky). Navic je to zrejme nejaky nadsenecky projekt, bezici nekde na jednom pocitaci...
  • 11. 12. 2000 22:16

    Ladislav Zajicek (neregistrovaný)
    CompletePlanet soustreduje jen prohledavatelne databaze. To zadny jiny katalog nedela.
    Automaticka tvorba anotaci je parada. Yahoo to bude moci zbalit:)
  • 11. 12. 2000 15:39

    Mirek Zeman (neregistrovaný)

    1,6 miliardy je cislo, ktere je uvedeno u spolecneho projektu Wired & Google.

    Co se tyce celkove velikosti Internetu, predpoklada se, ze dosahuje priblizne dvojnasobku databaze Google.

    Protoze presne nezname (neznam) zadna cisla, ze kterych by se dalo rozumne vychazet, odhady se mohou vyrazne lisit.

  • 11. 12. 2000 21:24

    Michal Illich (neregistrovaný)
    Google dnesniho dne udava na sve homepage cca 1 326 000 000 stranek. Co uz neudava, je, co toto cislo znamena. Ono totiz je souctem dvou cisel - skutecne velikosti jeho databaze a pak magickym cislem, ktere prilis informaci nema (viz muj predchozi nazor, ty cisla jsou priblizne 600+700M).

    Greg Notess na svych strankach SearchEngineShowdown (nejlepsi zdroj pro takouvoto informaci) udava odhad velikosti Googlea na 470M (k 9.rijnu). Fast je o trochu vetsi, jeho posledni zprava mluvi o 575 (cca) milionech.

    Co se tyce velikosti databaze - at uz vyjadrene poctem stranek nebo terabajty, to je cislo, ktere nic nerika, pokud zaroven presne nedefinujete, co do toho pocitate (opet viz muj predesly nazor).
    Klidne vam behem nekolika minut vygeneruji server obsahujici miliardy stranek s unikatnim obsahem - treba /dev/random :) - ale pocitat je by byl zjevny nesmysl.

    (mimochodem, offtopic: vedeli jste, ze browser Opera ma skvely zoom? - prave jsem to nejak zapnul, a ted nevim, jak to vypnout, ale je to uzasny zazitek).



  • 11. 12. 2000 22:26

    Ladislav Zajicek (neregistrovaný)
    To info o Googlu (jen 470 milionu stranek) muze byt podepreno vidlemi. Neexistuje duvod, proc by crawler nemohl stahnout vsechno, na co narazi. Google bezi na 6,000 pocitacu - to je slusna kapacita pro gatherer i broker. Pochybuju, ze by Google ve sve informaci tak salil davy.
  • 12. 12. 2000 19:37

    Michal Illich (neregistrovaný)
    Google ma pomerne kratky cyklus (1 mesic, ostatni mivaji nekolik mesicu az vecnost), takze zrejme musel volit nejaky kompromis mezi velikosti a aktualnosti.
    Ono nacrawlovat vsechno se lepe rekne nez udela - od urcite chvile totiz zacnete narazet pouze na badlinky a spam a efektivita crawlovani se rapidne zhorsi. Navic indexovani (zpracovani dat) nebyva ciste linearni, takze byva vetsim tlakem pro omezeni databaze nez samotny crawler.

    Co se tyce saleni davu, tak to Google kdysi nedelal, ale jak prechazi ke komerci, objevuji se u nej nektere patologicke rysy. Mozna pamatujete, ze kdyz zacinal, tak vydal kompletni whitepaper popisuji svou technologii, nemel zadnou reklamu ani nevydaval tiskove zpravy. Od te doby se to postupne zhorsuje - jeste v minule tiskove zprave o sve velikosti korektne udaval, co ta cisla znamenaji (muzete si to dohledat, tehdy udaval 560+500 milionu), a soucasne tiskove zpravy uz jsou nerozeznatelne od konkurencnich, vcetne ruznych mystifikaci. (a onen whitepaper je nyni dukladne smazan ze vsech mist, ktere meli autori pod kontrolou).
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).