Vlákno názorů k článku Recenze vyhledavačů: Seznam.cz od Advor - Nejak se divim, proc proste 2 technici Seznamu...

  • Článek je starý, nové názory již nelze přidávat.
  • 9. 1. 2002 21:31

    Advor (neregistrovaný)
    Nejak se divim, proc proste 2 technici Seznamu nesednou k pocitacum, nestahnou si z webu treba:

    @ AspSeek - http://www.aspseek.org/
    @ MnoGoSearch - http://www.mnogosearch.ru/

    Ty vyhledavace jsou free, maji implementovana ceska kodovani, umi dokonce i zakladni sklonovani pomoci slovniku ispellu, umi wildcardy, vyhledavani jen nektere domeny, clustering a spoustu dalsich uzitecnych veci.
    Navic se vyvijeji desive rychle, podstatne lepe nez nejaky WebFast ci Empyreum...

    Seznam by tak mel po letech opet kvalitni vyhledavac misto te hruzy, co si tam pousteji (zrejme proto, ze bozsky Ivo na tom spolupracoval a tak si na to ted nenecha sahnout).

    Stalo by je to maximalne tyden prace a zrejme nakup noveho serveru s diskovym polem, protoze Seznam generuje asi docela dost dotazu...

    Vyresili by tak tri mouchy jednou ranou:
    - prestali by do nich (opravnene) tepat recenzenti z Lupy a jinych odbornych serveru
    - uzivatele by KONECNE neco nasli
    - meli by skvele PR ve smyslu, jak jdou s dobou - jak jedou pekne na open source a jsou free

    (a nestalo by je to ani korunu)

    Ale oni jsou zrejme lini a prezrani vlastnim uspechem a tak tam nechaji jeste par let Kompas...
  • 10. 1. 2002 0:19

    k.p. (neregistrovaný)
    Osobne se nedomnivam, ze stroje s prostym SQL za zady zvladnou velke zateze a velke mnozstvi dokumentu (to se nemusi implicitne vztahovat na Oracle ci pgsql fulltext nadstavby).

    Zkuste hned prvni dotaz, co mne napadl: "seek store database europe". Ten pak bezi neuveritelnych cca 5sekund (aspseek). V pripade MnogoSearch a.k.a. UDMSearch mam osobni averzi, proto si jej nedovolim nyni hodnotit. Nebylo by to korektni.

    Ale i tak by se mozna opravdu jednalo o zlepseni pro fulltext.seznam.cz.
  • 10. 1. 2002 12:11

    Nishkam (neregistrovaný)
    Smim vedet neco o duvodech osobni averze vuci MnogoSearch a.k.a. UDMSearch???

    Zrovna zvazuji jeho pouziti a proto jakakoliv informace je pro mne dulezita, obzvlast kriticka. Byl bych fakt vdecny. Mate nejakou osobni zkusenost anebo je to dane necim jinym?
  • 10. 1. 2002 17:14

    Advor (neregistrovaný)
    sql samozrejme neni nic skveleho, ale vzhledem k tomu, ze aspseek podporuje i oracle, ktery je temer libovolne skalovatelny, nemel by to byt problem.

    berte to takhle:
    fulltext seznamu ma ted 1 milion dokumentu v databazi, zatimco aspseek ma 4 miliony a zvlada to. Uz jen to by byl vyznamny posun, navic ma aspseek spoustu veci navic (myslim ze jsem predtim zapomnel na cache stranek) a lepsi relevanci.

    pokud bych jim do toho mohl kecat, tak by seznam mel ted co nejrychleji prejit na aspseek a behem nasledujicich 3-4 mesicu vyvinout vyhledavac vlastni, pripadne aspseek vyznamne modifikovat. Pronajmout nektery ze soucasnych ceskych vyhledavacu by bylo myslim nevhodne, protoze - jak se zda z vasich slov - nejsou dostatecne kvalitni, navic jsou drahe a seznam je porad v cervenych cislech
  • 10. 1. 2002 18:56

    k.p. (neregistrovaný)
    Seznam si muze pronajmout i Empyreum nebo Webfast ev. i dalsi, a to muze byt efektivni, protoze tyto stroje jiz maji CZ naindexovane. Rozdil by pak slo pomerne rychle doindexovat. Naindexovani cele ceske domeny vezme cca 2-3 mesice, takze se spis vyplati koupit ceske a hotove.

    Otazka kvality vyhledavacu v CZ je sporna. Vsude je nejaky nedostatek, v tom neni rozdil nikde. Rozdil ale je, zda-li tvurci maji chut stale hledat chyby a inovovat. Nekteri stravili takove mnozstvi hodin se svym fulltextem, ze uz neveri, ze lze neco zlepsovat. A misto zvysene chuti chytit se kazde chybky, se ji spis snazi nevidet. Jen se podivejte na moloch google, tam Vam za kazdy dotaz co produkuje nesmysly utrhaji mailbox. Mozna se tohoto pristupu dockame i "doma".
  • 11. 1. 2002 15:02

    Michal Illich (neregistrovaný)
    Nevim, proc si myslite (~ z ceho vychazite), ze zaindexovani .cz zabere 2-3 mesice - ve skutecnosti jsou to 2-3 dny! ;)

    (at uz komercnim resenim nebo treba larbinem a podobnymi crawlery)
  • 11. 1. 2002 18:10

    k.p. (neregistrovaný)
    Cesky internet obsahuje nejmene 2M aktivnich stranek (=stranek, ktere se indexuji). Sam urcite mate praxi v tom, o kolik se musi natahat vice pred vyrazenim duplicit, a kolik konekci prodelate na 3xx/4xx.

    Budete-li indexovat 2M sekvencne, kazdou vterinu jednu stranu, budete to tahat 20 dni. Jiste namitnete, ze se to dela paralelne, ja zase mohu namitat, ze aktualne se taha mnohem vice, anyway:

    Ale napr. bezny akademicky server ma cca 100000 stran, alespon zde v Britanii. Ten spravce asi nebude nadseny, kdyz byste mu indexoval server rychlosti 1 stranu/sec. Vas system to pri posledni vyrobe indexu jede rychlosti 7 st/s. Takze takto se dostavame na indexacni dobu nejmene 7 dni, a i to stihate, pokud nebudete "polite", jak by rekl gentleman.

    Pokud empyreum jede paralelne vsechny servery najednou (coz nelze, ale dejme tomu), tak myslim indexujete ne vice jak 1/3 az 1/2 ceskeho internetu, vypnu-li kalkulacku a zavru obe oci :-).

    pozn.: Cislo o nekolika mesicich pochazi od lidi, kteri to nejednou delali a to ve stylu "polite".
  • 11. 1. 2002 20:12

    Michal Illich (neregistrovaný)
    Jak vidim, vase znalosti jsou pouze akademicke a nemate prilis tuseni, jak to v praxi chodi, ani jaka jsou konkretni cisla!

    Tak postupne:

    > Cesky internet obsahuje nejmene 2M aktivnich stranek

    Ceske fulltexty indexuji okolo 6 milionu stranek, ti lepsi vice, horsi mene.
    Dalo by se docela dobre rict, ze toto je skutecny pocet indexovatelnych dokumentu v .cz, protoze ceske vyhledavace maji velmi slusne pokryti (konektivita je levna a konkurence vysoka).

    > bezny akademicky server ma cca 100000 stran

    Pokud je "uzke hrdlo" na strane vzdaleneho serveru (moc dokumentu spolu s limitem na roboti aktivitu), neda se nic delat, slusne se chovajici crawler proste nestahne vsechny stranky, coz ale kvalitu celeho indexu vyznamne neposkodi.

    > Pokud empyreum jede paralelne vsechny servery najednou (coz nelze, ale dejme tomu)

    Vsechny profi crawlery indexuji samozrejme paralelne, a to i nekolik tisicu vzdalenych serveru najednou.

    > Cislo o nekolika mesicich pochazi od lidi, kteri to nejednou delali a to ve stylu "polite".

    Muzete jmenovat sve zdroje? :)

    Vsechny ceske vyhledavace, co znam, jsou relativne polite (i kdyz se treba Megatext neustale zapleta do nejakych scriptu), a trva jim to kratsi dobu.

    Tedy kdyz budu pocitat ja:

    Pocet stranek: 7 000 000
    Rychlost: rekneme 80 dokumentu za sekundu
    => 24 hodin crawlovani

    V praxi je to dyl, protoze cca posledni dva miliony dokumentu uz jdou strasne pomalu (zbyvaji uz jen pomale servery a chybove hlasky).




  • 11. 1. 2002 23:04

    k.p. (neregistrovaný)
    pozn.: pro members.aol.com indexuje aktualne google.com vice jak 600.000 dokumentu. Takove pocty obecne vznikaji dynamizaci a amortizacnim crawlovanim, ale presto nelze tvrdit, ze crawler stahne jen "neco", kdyz je server prilis obsahly. members.aol.com ma 3x dns-rr, presto vsak na 1 IP pripada vice jak 200.000 dokumentu.

    Dale upozornuji, ze jsem nehovoril o aktualnim poctu dokumentu v *.CZ, ale o minimalnim poctu. Prosim, aby mi nebyly vkladany k vyjadreni slova, ktera jsem nenapsal.

    To, ze nestahnete vse ze serveru, pochopitelne kvalitu indexu poskodi. Vase znalosti jsou v tomto pravdepodobne nepresne. Jiz Knuth kdysi rekl, ze je chybou, kdyz vznika teoreticka vec bez praktickych podkladu, a prakticka vec bez teoretickych.

    K otazce crawlovani nekolika tisici spojeni se nebudu vyjadrovat. Zabredli bychom k distribuovanemu crawlingu, ktery ma s ceskou domenou jiz velice malo spolecneho.

    Myslim, ze bude vhodne tuto zajimavou diskuzi prerusit, ev. ji presunout ke clanku o empyreu, ktery je jiz na ceste. Pripadne je mozne vyuzit muj e-mail k privatni diskuzi. Nerad bych byl verejnymi osobnimi vypady tvurcu ovlivnen pro dalsi recenze. Necini mi problem diskutovat verejne pristupnymi praktickymi podklady (viz overitelne hodnoty vyse), a rad tak ucinim. Jenom si myslim, ze je vzdy vhodnejsi zeptat se, nez pouzivat ton, ktery je zbytecne osobne konfrontacni. Konfrontovat se maji nazory. Na zaver bych rad uvedl, ze nechci se ctenari zavodit v mire praktickych ci teoretickych znalosti. Mnoho psu - zajicova smrt.
  • 12. 1. 2002 13:22

    Michal Illich (neregistrovaný)
    > Dale upozornuji, ze jsem nehovoril o aktualnim poctu dokumentu v *.CZ, ale o minimalnim poctu.

    Minimalni pocet je nicnerikajici cislo - jak jste toto "minimum" urcil - z ceho a proc?

    > To, ze nestahnete vse ze serveru, pochopitelne kvalitu indexu poskodi.

    V .cz existuji stovky "nekonecnych smycek", do kterych by se neopatrny crawler mohl zaplest. Tedy neni mozne nikdy stahnout "vse". Jednim ze zpusobu, jak kvalitu indexu ZLEPSIT je prave selektivni crawlovani - z kazdeho zdroje stahnout jen prave tolik dat, nakolik je server vseobecne znamy. Jeste lepsi algoritmy zohlednuji vzajemnou ruznost dat.

    > K otazce crawlovani nekolika tisici spojeni se nebudu vyjadrovat. Zabredli bychom k distribuovanemu crawlingu, ktery ma s ceskou domenou jiz velice malo spolecneho.

    Nejmene trikrat se snazite odbehnout od tematu, kde se ukazalo, ze vase znalosti nejsou presne nebo podlozene...

    Samozrejme ze JE MOZNE crawlovat s nekolika tisici spojenimi (a to na jedinem unixovem stroji), a i .cz domene se to tak dela.

    > Myslim, ze bude vhodne tuto zajimavou diskuzi prerusit, ev. ji presunout ke clanku o empyreu, ktery je jiz na ceste. Pripadne je mozne vyuzit muj e-mail k privatni diskuzi. Nerad bych byl verejnymi osobnimi vypady tvurcu ovlivnen pro dalsi recenze.

    (1) Nemluvim o Empyreu - jak vidite ze vsech mych prispevku v tomto foru, Empyreum jsem ani jednou nezminil. Mluvim vzdy obecne, a to se znalosti mnoha ruznych vyhledavacu, jak ceskych, tak zahranicnich, jak komercnich, tak free.

    (2) Nemluvim za Empyreum - vsechny moje nazory jsou soukrome, a nijak je s Empyreum k.s. nespojujte.

    (3) Nejsem osobni. Cely prispevek byl krome prvni vety ciste vecny a dolozeny konkretnimi cisly (na ktere jste neodpovedel). Za prvni vetou si nicmene stojim, protoze se jak v clancich, tak ve vasich reakcich vyskytuji informace, ktere jsou pouze knizni a s beznou praxi maji malo spolecneho.

    Mrzi me, ze vas prvni veta prvniho prispevku a mozna i predchozi veta tohoto, ladi do osobne-konfrontacni roviny. Take mam rad vecnou diskusi a myslim, ze z ni casteji vypadavate vy nez ja.

  • 13. 1. 2002 16:24

    k.p. (neregistrovaný)
    Minimalni pocet je minimalni pocet stranek, ktere byste mel zindexovat, aby se dalo hovorit o tom, ze indexujete CZ. Vychazi z prace, kterou lze ziskat v knihovne (zkuste to prosim).

    Proc Google.com indexuje na sweb.cz vice jak 60.000 stran? Vase vyjadreni o tom, ze se server indexuje jen z casti, kdyz ma tak moc stranek, neni pravdive. Dalsim serverem je linux.cz, ktery ma vice jak 120.000 stranek jen v zaloze mailing listu. Jak pak muzete indexovat linux.cz nebo sweb.cz za mene nez 10 dni, aniz byste jej pretizili je nejasne. Muzete prosim zduvodnit proc nezindexovani vsech stranek nezhorsuje kvalitu (presnost+uplnost)? Proc by mel zahranicni server indexovat v CZ vice povolneji nez Vy - specializovani?

    Take je nejasne, proc pri cislech, ktere jste udal, vychazi jen 20-40 paralelnich konekci. To az o 2-3 rady nesouhlasi s tim, ze se v CZ crawluje po tisicich. Mozna to nekdo dela, ale naprosto zbytecne, protoze po tisicich muze pracovat mozna jen prvnich par minut tvorby indexu. Proto je irelevantni o tomto hovorit v ramci ceske domeny. I tento Vas vyrok musim pokladat za velmi nepresny.

    Dale si myslim, ze z profesionalni roviny vypadavate s vetsi pravdepodobnosti nez ja. Uvazte pri tom kolik prispevku v diskuzi jsem napsal ja a kolik Vy. Rozdil mezi nami je, ze ja se k Vasi osobe zasadne nevyjadruji.
  • 13. 1. 2002 17:09

    Michal Illich (neregistrovaný)
    Zrejme nevychazite z vlastniho stinu, do osobniho vypadu (sic lehkeho, ale prece) jste presel hned v prvnim odstavci :)

    > Minimalni pocet je minimalni pocet stranek, ktere byste mel zindexovat, aby se dalo hovorit o tom, ze indexujete CZ. Vychazi z prace, kterou lze ziskat v knihovne (zkuste to prosim).

    Z vase tvrzeni primo vyplyva, ze "Seznam neindexuje CZ". To je dost odvazne tvrzeni.

    Navic toto, o cem diskutujeme, prece v zadnem pripade neni ANO/NE rozdeleni (do urciteho poctu nesmyslne, pak najednou uz smysluplne). Je to spis fuzzy rozlozeni, kde vicemene plati - vice=lepe, i kdyz ten vztah neni linearni.

    > Proc Google.com indexuje na sweb.cz vice jak 60.000 stran? Vase vyjadreni o tom, ze se server indexuje jen z casti, kdyz ma tak moc stranek, neni pravdive.

    Nic takoveho jsem take nerekl.

    I ceske fulltexty indexuji hodne z jednotlivych serveru, napr. z cuni.cz ma Empyreum Fulltext 300 tisic odkazu, WebFast 56000 (Google 185000).

    Jeste jednou, co nejjasneji zopakuju svou myslenku: neni treba z kazdeho serveru zaindexovat vsechno, naopak je nutne mit databazi co nejsirsi, aby obsahovala co nejpestrejsi paletu stranek z nejruznejsich serveru. Protoze databaze nemuze byt nekonecne velka (zatimco pocet ruznych URL, na kterych je nejaky obsah, nekonecny je), je nutne udelat vyber. Ten vyber by mel splnovat podminku homogenity, tedy neindexovat z jednoho serveru bezduvodne mnoho a z jineho nic. Jedine pestrosti a co nejvetsim rozsahem databaze dosahnete kvalitnich vysledku.

    Tedy CELKOVA kvalita databaze je dana jeji CELKOVOU velikosti a kriterii vyberu.





  • 13. 1. 2002 19:21

    Dan Lukes (neregistrovaný)
    Tedy CELKOVA kvalita databaze je dana jeji CELKOVOU velikosti a kriterii vyberu.

    Nevim jak pro vas pany odborniky, ale pro me, laickeho uzivatele, je celkova kvalita databaze primo umerna pravdepodobnosti, ze najdu to, co hledam a neprimo umerna dobe, kterou na to musim venovat. Nejsem si tak uplne jist, ze to je totez, co rikate vy ...

  • 14. 1. 2002 15:10

    Michal Illich (neregistrovaný)
    >> Tedy CELKOVA kvalita databaze je dana jeji CELKOVOU velikosti a kriterii vyberu.
    > Nevim jak pro vas pany odborniky, ale pro me, laickeho uzivatele, je celkova kvalita databaze primo umerna pravdepodobnosti, ze najdu to, co hledam a neprimo umerna dobe, kterou na to musim venovat. Nejsem si tak uplne jist, ze to je totez, co rikate vy ...

    Rozlisujme "databazi" a "vyhledavac".
    Databaze je proste souhrn informaci, napr. webovych stranek - u ni se da prave mluvit o jeji velikosti a kriterii, podle kterych jsou do ni informace vkladany.
    Vyhledavac je pak nejaky program, ktery z databaze vybere informace, ktere podle nej nejlepe odpovidaji dotazu, ktery uzivatel pouzil. U nej potom muzete posuzovat relevanci.

    Rozpor byl zrejme v tom, ze ja mluvil o databazi a vy o vyhledavaci nad databazi.
  • 14. 1. 2002 19:30

    Martin Kopta (neregistrovaný)
    Když jsem byl dotázán, odkud vím o existenci WebSeeku, odpověděl jsem, že z logů Lupy. Prostě indexují tak intenzivně, že se to ve výsledcích výrazně projeví. Takže ono na těch rychlostech indexování něco bude.
  • 16. 1. 2002 1:05

    Dan Lukes (neregistrovaný)
    Ano, v podstate mate pravdu. Snad jen s tim, ze ona zminena "kriteria" vyberu tvori spojovaci clanek mezi "databazi" a "vyhledavacem nad databazi". Pokud nejsou nektere udaje do databaze vubec ukladany (kriterium vyberu) jde o stav ekvivalentni situaci, kdy jim vyhledavac nepriklada zadnou vahu (vyhledavac nad databazi). A jelikoz hovorit o kvalite databaze same bez ohledu nad tim jakym zpusobem je vyuzivana je ponekud nezvykle (a nejsem si prilis jist, zda je to vubec korektni) nenapadlo me, ze o techto dvou vecech uvazujete oddelene.

    Pokud jste tedy chtel rict, ze "databaze (coz je soubor informaci) ma tim vetsi rozsah cim vetsi objem informaci obsahuje" pak nelze nez souhlasit (uz proto, ze je to v zasade tautologie).

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).