Názory k článku Recenze vyhledavačů: Seznam.cz

  • Článek je starý, nové názory již nelze přidávat.
  • 9. 1. 2002 8:18

    Dusan Bolek (neregistrovaný)
    Myslim, ze zminovane problemy jsou zpusobeny v prvni rade tim, ze fulltext neni pro seznam primarni. Je to zejmena katalog s moznosti fulltextoveho vyhledavani. Tudiz srovnavat ho s Altavistou je ponekud nevhodne, kdyz jde ve sve podstate o server typu Yahoo.
    Myslim si, ze seznam.cz dela velmi dobre to na co je urcen (tedy katalog) a pouzit ho k fulltextovemu vyhledavani je nesikovne a je lepsi pouzit google.com.
  • 9. 1. 2002 9:08

    Ondrej Hnilicka (neregistrovaný)
    hehe,

    konecne si toho nekdo vsiml...

    arogance a povysenost Seznamu, ktery profituje jen z toho, ze je tak nejak v povedomi mnoha lidi, je uz nebetycna. Nekteri chudacci si dokonce mysli, ze TAM zacina Internet!

    To je vzdycky hruza, kdyz je clovek *obtezuje*, aby mu pridali nejaky odkaz. Za mesic se mozna uraci a mozna ho pridaji. Anebo taky ne. Anebo ho daji do jine kategorie, pripadne zmeni popisek (asi by odkaz konkuroval nekomu, kdo si zaplatil).

    A zmenit neco (jina adresa, upraveny popis)??? Cha cha. To snad ani nejde!

    Ja uz se s tim ani neobtezuji - nebudu podporovat takovou SHIT-firmu.

    O jejich fulltextu (kdysi Kompas), ktery je stale ve stavu, jak ho pred ctyrmi (nebo uz peti?) lety intuitivne napsal nejaky zoufalec, nemusim snad ani nic rikat. Je to jednoduse hruuza na druhou.

    Ze je cely Seznam okopirovane Yahoo (aniz by se tim v zacatcich provozu nedostudovany ;) Lukacovic nejak tajil [ceske yahoo]) a stale si udrzuje stejnou podobu, je snad take jasne.

    Takze souhlasim s hodnocenim - jedna velka NULA!

    pozn. srovnejte zde
  • 9. 1. 2002 10:55

    Petr (neregistrovaný)
    Souhlasím! Nejlepší je podle mě www.redbox.cz, který má jak kvalitní katalog, tak i skvělý fulltext (pro zahraničí používá Google).
  • 9. 1. 2002 11:42

    Martin (neregistrovaný)
    Že je Seznam špatnej jako celek (fulltext, katalog, mail, ...) ví snad dost lidí a že tu existují mnohem lepší produkty je jasné (Redbox, Caramba, Klikni, Centrum). Smutné je, že stejně velké množství lidí bude používat Seznam jen proto že ho zná a na kvalitě nikomu záležet nebude.

    Stejně jsem ale zvědav na vyvrcholení celé série recenzí fulltextů, až nám tajemný K.P. napíše, že nejlepší fulltext je ten jeho.
  • 9. 1. 2002 12:37

    k.p. (neregistrovaný)
    Tajemny k.p. nebude psat veci, o kterych neni presvedcen, potazmo s ohledem na to, ze jiz nemam autorska prava na sve fulltexty (jsou prodana). I tak bych nemohl napsat, ze tyto fulltexty jsou nejlepsi, protoze nejsou.

    Neexistuje zatim zadny universalne dobry stroj, ale je mozne ze az bude existovat 20-30 stroju na ruznem modelu, stane se tim universalne dobrym nejaky meta vyhledavac uz jen proto, ze prunik dokumentu ve svetovych fulltextech cini cca 5%.

    Ostatne recenze by mely koncit prekvapenim, ktere je jiz z casti pripraveno, a neni to, co si myslite...
  • 9. 1. 2002 14:50

    Solvina (neregistrovaný)
    Seznam - je fakt hruza. Konecne nekdo napsal, alespon priblizny popis funkce tohodle 'vyhledavace'. Jenom se divim, ze to slo bez vulgarismu, nemel jste pane Pánek, cukani nektere jadrnejsi slovo pouzit?

    Nicmene bych se chtel zeptat pana Pánka, jehoz recenze, IMHO, vypadaji opravdu fundovane a ziskal sem pocit, ze autor vi o cem pise, jestli by nemohl: napsat clanek pro, ehm, ehm, potencionalni tvurce vyhledavacu - nejde mi jenom o prohledavani internetu, ale napr. 'boolovskem' a 'vektorovem' modelu vyhledavani. Konkretne u techle pojmu intuitivne chapu o cem ten, ktery je, ale rozhodne by nevadil podrobnejsi popis. Neco o principu tvorby fulltextovych vyhledavacu. Pripadne pokud jste akademicky ci literarne cinny, celkem rad bych si od Vas neco precetl. Proste neco abychom i my, sprosty lid, meli jeste vic z Vasich recenzi.
  • 9. 1. 2002 21:31

    Advor (neregistrovaný)
    Nejak se divim, proc proste 2 technici Seznamu nesednou k pocitacum, nestahnou si z webu treba:

    @ AspSeek - http://www.aspseek.org/
    @ MnoGoSearch - http://www.mnogosearch.ru/

    Ty vyhledavace jsou free, maji implementovana ceska kodovani, umi dokonce i zakladni sklonovani pomoci slovniku ispellu, umi wildcardy, vyhledavani jen nektere domeny, clustering a spoustu dalsich uzitecnych veci.
    Navic se vyvijeji desive rychle, podstatne lepe nez nejaky WebFast ci Empyreum...

    Seznam by tak mel po letech opet kvalitni vyhledavac misto te hruzy, co si tam pousteji (zrejme proto, ze bozsky Ivo na tom spolupracoval a tak si na to ted nenecha sahnout).

    Stalo by je to maximalne tyden prace a zrejme nakup noveho serveru s diskovym polem, protoze Seznam generuje asi docela dost dotazu...

    Vyresili by tak tri mouchy jednou ranou:
    - prestali by do nich (opravnene) tepat recenzenti z Lupy a jinych odbornych serveru
    - uzivatele by KONECNE neco nasli
    - meli by skvele PR ve smyslu, jak jdou s dobou - jak jedou pekne na open source a jsou free

    (a nestalo by je to ani korunu)

    Ale oni jsou zrejme lini a prezrani vlastnim uspechem a tak tam nechaji jeste par let Kompas...
  • 9. 1. 2002 23:41

    Marek Prokop (neregistrovaný)
    Pane Pánku, mohu se zeptat, proč považujete indexování obsahu atributu ALT značky IMG a skutečnost, že je mu přikládána stejná váha jako běžnému textu, za fatální chybu?

    Chápu, že odpověď na tuto otázku nemusí být jednoznačná -- některé významné vyhledavače ALTy respektují (Google, AltaVista), jiné ho ignorují (Excite, FAST, Inktomi) -- nicméně faktem zůstává, že z hlediska HTML, je ALT plnohodnotný text, zcela rovnocený ostatnímu textu na stránce.
  • 10. 1. 2002 0:19

    k.p. (neregistrovaný)
    Osobne se nedomnivam, ze stroje s prostym SQL za zady zvladnou velke zateze a velke mnozstvi dokumentu (to se nemusi implicitne vztahovat na Oracle ci pgsql fulltext nadstavby).

    Zkuste hned prvni dotaz, co mne napadl: "seek store database europe". Ten pak bezi neuveritelnych cca 5sekund (aspseek). V pripade MnogoSearch a.k.a. UDMSearch mam osobni averzi, proto si jej nedovolim nyni hodnotit. Nebylo by to korektni.

    Ale i tak by se mozna opravdu jednalo o zlepseni pro fulltext.seznam.cz.
  • 10. 1. 2002 0:08

    k.p. (neregistrovaný)
    Predem dekuji za prizen.

    Po pravde jsem nemel cukani k impertinencim vuci seznam.cz. Znam je pomerne dobre a spise mi bylo stydno, ze je jejich fulltext ve stavu, jaky lze stezi spatrit pri pohledu do dob drevniho internetu. Myslim, ze v dnesni dobe by pro ne nebylo problemem si alespon "pujcit" libovolny fulltext, ktery je na trhu. Vidim v tom pak problem nejen technicky (dany kapacitami a prirozene limitovanymi lidskymi zdroji), ale i managersky. Pravdepodobne to bude jen muj subjektivni nazor, ale mam dojem, ze seznam ztratil vizi, cil a smysl existence.

    K druhe casti dotazu (ohledne toho, jak fulltexty delat): na teto serii clanku se pomalu pracuje, nebot ani lupa.cz neni nepritelem tohoto napadu. Tyto clanky budou vyrazne prakticke s odkazy na probihajici recenze.
  • 10. 1. 2002 0:55

    k.p. (neregistrovaný)
    Ten duvod vidim v naslednem semantickem vyznamu textu. Chvili budu muset nyni operovat s tvrzenimi, ktere zde nelze plne prokazat, ale snad se shodneme, ze:

    1. ALT je atypicka polozka, ktera obsahuje atypicka slova, ba mnohdy i jiny slovnik nez vlastni text (zkratky, oznaceni od designera HTML, technicky popis obrazku od grafika atp.)

    2. ALT casto skryva text, ktery se strankou nesouvisi (jde napr. o ALT od bannerove reklamy), a nemusi se tam vubec objevit, kdyz stranku hledac-osoba navstivi

    3. neni znama kvalitni technika, ktera rozsoudi, zda je text z ALT v souvislosti s dokumentem (existuji sice jiste pokusy s entropii, ale neni znamo, co se stane, kdyz to aplikujete na velke corpusy)

    Protoze pak seznam.cz zadnym zpusobem neprovadi analyzu vstupnich uzlu pro termy (jako napr. google), je do znacne miry zmaten z kazdeho textu, tedy i toho v ALT.

    Za fatalni to pak povazuji ne jako metodu samu o sobe, ale jako metodu pouzitou v urcite implementaci. Proto take rozumim tomu, ze nektere vyhledavace metodu maji, jine ne. Zavisi na tom, co maji tyto stroje "okolo" za moduly.

    Priklad IMG.ALT: http://www.volny.cz/atelierfgt/
    V ALT je "MENU-CZ", ale menu je spise slovo vhodne k akceptovani, je-li stranka o gastronomii (nebo lepe kdyz je to nabidka kavarny, restaurace atp.), nikoliv o foto atelieru. Protoze by pri HITS analyze nas priklad spadl do skupiny "atelieru", nemohlo by se stat, ze by term nesouvisejici s ateliery (MENU) byl stejne relevantni jako text. Tim by doslo ke kompenzaci, kterou seznam neimplementuje, a proto jsem pouzil vyraz "fatalni".
  • 10. 1. 2002 2:53

    ? [v(d)ěčný otazník] (neregistrovaný)
    Ono je možné autorská práva zcela odprodat? Myslel jsem, že české právo neumožňuje zcela se autorských práv zbavit prodejem. Copyright by vám měl patřit nadosmrti. Možná jste někomu svěřil výkon svých práv, ale jsou stále vaše, tak nám prozraďte, co jste to dělal za fulltexty.

    Jinak k tomu "průniku" - těch 5 % je málo, v článku: S. Lawrence and C.L. Giles, "Accessibility of information on the Web," Nature, Vol. 400, pp. 107-109, 1999. se tvrdí něco jiného. Lawrencův citační index je o dost vyšší než ten váš, takže opravdu ta vaše H*VN*L*GIE (půjčím si, s dovolením, slovo, které tu padlo v příspěvcích již před týdnem) ohledně hodnocení vyhledávačů by mohla skončit.
  • 10. 1. 2002 9:49

    Marek Prokop (neregistrovaný)
    Obávám se, že s vámi nemohu souhlasit. ALT není "atypická položka". ALT je standardní textová alternativa obrázku určená těm, kteří nejsou schopni obrázek vnímat. Kromě nevidomých a uživatelů textových prohlížečů se jedná právě o automatizované roboty.

    Stránka zobrazená v textovém prohlížeči (tj. s ALTy) by měla dávat stejný smysl, jako tatáž stránka zobrazená s obrázky. Častým případem např. je, že jsou hlavní nadpisy stránek (pro SE velmi důležité) provedeny obrázkem a ALT pak obsahuje tentýž text, jako daný obrázek. Totéž se týká odkazů v hlavním menu, které jsou kvůli rollover efektu také často obrázkové.

    U správně navržených HTML dokumentů tedy často nelze věrně a úplnně indexovat jejich obsah, pokud robot ALTy ignoruje. Nic na tom nemění ani to, že mnoho autorů stránek používá ALTy chybně a dává do nich informace, o kterých píšete. Kdybychom připustili, že je správné eliminovat při indexování všechny potenciální bláboly, pak by se nemělo indexovat nic, protože velmi často bývá nesmyslná většina normálního textu stránky ;-)

    Tím odpovídám i na váš argument, že "neni znama kvalitni technika, ktera rozsoudi, zda je text z ALT v souvislosti s dokumentem". Je-li to pravda, pak ani nemůže být známa metoda, která rozsoudí, zda je v souvislosti s dokumentem cokoli v jeho normálním textu. Sám uvádíte příklad se slovem "Menu", ale to se přeci vyskytuje v textové podobě ještě častěji, než jako ALT.
  • 10. 1. 2002 12:11

    Nishkam (neregistrovaný)
    Smim vedet neco o duvodech osobni averze vuci MnogoSearch a.k.a. UDMSearch???

    Zrovna zvazuji jeho pouziti a proto jakakoliv informace je pro mne dulezita, obzvlast kriticka. Byl bych fakt vdecny. Mate nejakou osobni zkusenost anebo je to dane necim jinym?
  • 10. 1. 2002 12:24

    k.p. (neregistrovaný)
    dovolim si jeste malou vsuvku co rozumim prunikem. Kdyz A indexuje 100 dokumentu, B take, a z toho oba zaroven indexuji 5 totoznych: je prunik 5% (5 dokumentu), sjednoceni 105% (205 dokumentu). Hovorim o te prvni velicine, protoze ta hovori o tom, zda metavyhledavac musi nejak slozite hledat duplicity a korigovat vahy z jednotlivych stroju.
  • 10. 1. 2002 16:39

    Martin Vobr (neregistrovaný)
    "- neni mi jasne co chapete pod pojmem citacni index a jakou to ma souvislost s mnozstvim dokumentu, ktere indexuji vsechny velke vyhledavace zaroven "

    Nejsem sice autor původního příspěvku, ale to nevadí. Citační index v zásadě říká jak moc je autor článku citovaný ostatnímu autory publikací. Dá se z toho odvodit jeho odborná prestiž, nebo to jak moc je možno věřit autorovým závěrům.

    S množstvím dokumentů indexovaných vyhledávači to nemá nic společného. I když jsem měl dojem, že na některých (zahraničních) vysokých školách má citační index vliv na odměny lektorů...
  • 10. 1. 2002 16:55

    ČoČkin I. Líný (neregistrovaný)
    Teď se dostanu asi na tenký led, nemám rád matiku, ale...
    Pokud sjednocuji počet indexovaných dokumentů, výsledek by měl být 195 dokumentu, ne ?
    A výraz SJEDNOCENÍ by měl označovat tento výsledek, jak mi selský rozum káže :o))
    100 (A) + 100 (B) = 200 - 5 (prunik) = 195
  • 10. 1. 2002 11:14

    k.p. (neregistrovaný)
    Mozna Vas prekvapi, ze s Vami budu souhlasit. Mate pravdu, ale ne vsechny HTML stranky jsou dobre napsane. A i ty, ktere jsou, maji casto nerelevantni ALT se svym skutecnym obsahem. Pokud pak stroj uvazi ALT stejne silne bez ohledu na "okolni text" (a tady s Vami nesouhlasim, ze tento problem je stejny jako relevance "textu" vuci "textu" dokumentu), je zmaten stejne jako napr. pri floodingu keywords.

    Napr. bannery (ty jsou na vetsine komercnich serveru, ktere pokryvaji vice jak polovinu obsahu www) obsahuji u svych ALT nerelevantni slova. Nehlede na to, ze tataz slova jsou pak na velke vetsine z nich (to pak muze snizit jejich unikatnost).

    Bud jde o slova recenzenta (viz svet.namodro.cz - cerveny banner blesk.cz ma v ALTu slovo blesk nesouvisejici s textem), nebo jde o standardni fraze (napr. nektere bannerove systemy doplnuji sve zvlastni identifikace kampani).

    Indexujete-li akademickou sit, klidne muzete ALT pojmout do textu `'as-is`'. Ovsem pres cely www bych to bez uvazeni relevance vuci zbylemu textu stanky necinil.

    Pozn.: neustale ale hovorim o systemu, ktery nedisponuje doprovodnymi technikami, ktere by byt neprimo redukovaly silu termu. napr. pokud na nej neodkazuji dalsi stranky s tymz termem atp.
  • 10. 1. 2002 11:57

    k.p. (neregistrovaný)
    Zustanu ve vecne rovine:

    - jedna se o clanek jiz 2 roky stary, proto jeho relevance k dnesku je v mnohych ohledech vzdalena. Velikost webu se zmenila, stejne tak jako vznikly nove vyhledavace

    - clanek se zabyva nikoliv primarne "prunikem", ale spise "sjednocenim". Konkretne Vami zmineny clanek si nepamatuji, ale Lawrence vetsinou prunikoval 2 stroje a ukazoval jak se hybe coverage.

    - neni mi jasne co chapete pod pojmem citacni index a jakou to ma souvislost s mnozstvim dokumentu, ktere indexuji vsechny velke vyhledavace zaroven

    - nejsem statistik, ale spise bylo vecnejsi napadnout to, ze jsem neuvedl, kolik velkych stroju "prunikuji" do onech 5%. Vezmu-li do teto skupiny nejaky maly (kupr. idnes) a pak jen google, mozna se hrave dostanu i pod 5%.

    Kdybyste byl akademicky dostatecne fundovan, mozna byste volil mene silne vyrazy ve spojeni s jednim, ne jiz nejaktualnejsim clankem.

    Nespletl jste se, kdyz jste 5% porovnaval s 15-20%, ktere jsou ale o odhadu jine hodnoty?
  • 10. 1. 2002 12:46

    Karel Panek - EMPYREUM (neregistrovaný)
    :) Dobry den,

    vzhledem ke stale vzrustajicimu mnozstvi udivenych telefonatu ze strany obchodnich partneru EMPYREUM k. s. si dovoluji znovu konstatovat, ze s autorem posledni serie clanku o vyhledavacich na Lupe nemam vubec nic spolecneho.

    Velice bych uvital, kdyby pan "k. p." - pokud to neni v rozporu s jeho obchodni strategii - vice specifikoval svoje komercni aktivity a tim pokud mozno zabranil dalsim omylum. Freemailova schranka na Yahoo a znamost s panem Koptou mi bohuzel o jeho skutecnych aktivitach moc nenapovi; nicmene si myslim, ze tato informace je zajimava i pro ostatni ctenare Lupy...

    Karel Panek, strategie rozvoje spolecnosti
    EMPYREUM(tm) - Informacni technologie
    e-mail: karel.panek@empyreum.cz


  • 10. 1. 2002 17:14

    Advor (neregistrovaný)
    sql samozrejme neni nic skveleho, ale vzhledem k tomu, ze aspseek podporuje i oracle, ktery je temer libovolne skalovatelny, nemel by to byt problem.

    berte to takhle:
    fulltext seznamu ma ted 1 milion dokumentu v databazi, zatimco aspseek ma 4 miliony a zvlada to. Uz jen to by byl vyznamny posun, navic ma aspseek spoustu veci navic (myslim ze jsem predtim zapomnel na cache stranek) a lepsi relevanci.

    pokud bych jim do toho mohl kecat, tak by seznam mel ted co nejrychleji prejit na aspseek a behem nasledujicich 3-4 mesicu vyvinout vyhledavac vlastni, pripadne aspseek vyznamne modifikovat. Pronajmout nektery ze soucasnych ceskych vyhledavacu by bylo myslim nevhodne, protoze - jak se zda z vasich slov - nejsou dostatecne kvalitni, navic jsou drahe a seznam je porad v cervenych cislech
  • 10. 1. 2002 17:25

    MK (neregistrovaný)
    Prece byste nechtel presnost a peclivost u takove fuzzy vedy, jakym je hodnoceni neceho, u ceho neznam ani algoritmy?
  • 10. 1. 2002 18:06

    Libor Nováček (neregistrovaný)
    Pánků máme v ČR 2328 kousků (236. v pořadí četnosti) a Karlů je 140212 (13. v pořadí) - teď jde jen o ten průnik množin, jako u těch SE ;o)) (čerpal jsem z dat MV, stav k 1999)

    BTW - nechodil jeden z vás na Gymnázium Ústavní na Praze 8 - http://www.ggg.cz ?
  • 10. 1. 2002 18:27

    k.p. (neregistrovaný)
    Ano mate pravdu a skvely postreh. Omylem jsem scital, nikoliv odecital tu (5)-ku. Diky za pripominku
  • 10. 1. 2002 18:58

    Karel Panek - EMPYREUM (neregistrovaný)
    :))

    Ano, na gymnasiu v Praze 8 jsem studoval a - jak lze usoudit z meho veku - vubec tomu neni tak davno;)

    Karel Panek @ EMPYREUM

  • 10. 1. 2002 19:17

    k.p. (neregistrovaný)
    Stale mi neni jasne, zda je tento index pojiman jako baze ci faktor (=cislo). V zavislosti od poctu dokumentu a toho jak crawlery uvazovanych stroju prochazeji objevene citace/linky by mozna slo opravdu stanovit nejake zajimave hodnoty s pouzitim zmineneho faktoru. Pak by slo dokonce spocitat (presne odhadnout) pocet dokumentu v pruniku i sjednoceni.
  • 11. 1. 2002 15:02

    Michal Illich (neregistrovaný)
    Nevim, proc si myslite (~ z ceho vychazite), ze zaindexovani .cz zabere 2-3 mesice - ve skutecnosti jsou to 2-3 dny! ;)

    (at uz komercnim resenim nebo treba larbinem a podobnymi crawlery)
  • 12. 1. 2002 19:48

    Aleš Michálek (neregistrovaný)
    Váš postoj se mi vůči Seznamu nelíbí. Neříkám, že ho mám rád (opak ja pravdou), ale říkat, že má špatný fulltext???

    Katalogový fulltext má podle mého názoru na úplně stjné úrovni jako jiné katalogy.

    Internetový fulltext má podle mého názoru díky Google.com na nejlepší úrovni >>> Google patří dle mého názoru ke špičkám ve fulltextovém vyhledávání...

  • 10. 1. 2002 18:56

    k.p. (neregistrovaný)
    Seznam si muze pronajmout i Empyreum nebo Webfast ev. i dalsi, a to muze byt efektivni, protoze tyto stroje jiz maji CZ naindexovane. Rozdil by pak slo pomerne rychle doindexovat. Naindexovani cele ceske domeny vezme cca 2-3 mesice, takze se spis vyplati koupit ceske a hotove.

    Otazka kvality vyhledavacu v CZ je sporna. Vsude je nejaky nedostatek, v tom neni rozdil nikde. Rozdil ale je, zda-li tvurci maji chut stale hledat chyby a inovovat. Nekteri stravili takove mnozstvi hodin se svym fulltextem, ze uz neveri, ze lze neco zlepsovat. A misto zvysene chuti chytit se kazde chybky, se ji spis snazi nevidet. Jen se podivejte na moloch google, tam Vam za kazdy dotaz co produkuje nesmysly utrhaji mailbox. Mozna se tohoto pristupu dockame i "doma".
  • 11. 1. 2002 18:10

    k.p. (neregistrovaný)
    Cesky internet obsahuje nejmene 2M aktivnich stranek (=stranek, ktere se indexuji). Sam urcite mate praxi v tom, o kolik se musi natahat vice pred vyrazenim duplicit, a kolik konekci prodelate na 3xx/4xx.

    Budete-li indexovat 2M sekvencne, kazdou vterinu jednu stranu, budete to tahat 20 dni. Jiste namitnete, ze se to dela paralelne, ja zase mohu namitat, ze aktualne se taha mnohem vice, anyway:

    Ale napr. bezny akademicky server ma cca 100000 stran, alespon zde v Britanii. Ten spravce asi nebude nadseny, kdyz byste mu indexoval server rychlosti 1 stranu/sec. Vas system to pri posledni vyrobe indexu jede rychlosti 7 st/s. Takze takto se dostavame na indexacni dobu nejmene 7 dni, a i to stihate, pokud nebudete "polite", jak by rekl gentleman.

    Pokud empyreum jede paralelne vsechny servery najednou (coz nelze, ale dejme tomu), tak myslim indexujete ne vice jak 1/3 az 1/2 ceskeho internetu, vypnu-li kalkulacku a zavru obe oci :-).

    pozn.: Cislo o nekolika mesicich pochazi od lidi, kteri to nejednou delali a to ve stylu "polite".
  • 11. 1. 2002 20:12

    Michal Illich (neregistrovaný)
    Jak vidim, vase znalosti jsou pouze akademicke a nemate prilis tuseni, jak to v praxi chodi, ani jaka jsou konkretni cisla!

    Tak postupne:

    > Cesky internet obsahuje nejmene 2M aktivnich stranek

    Ceske fulltexty indexuji okolo 6 milionu stranek, ti lepsi vice, horsi mene.
    Dalo by se docela dobre rict, ze toto je skutecny pocet indexovatelnych dokumentu v .cz, protoze ceske vyhledavace maji velmi slusne pokryti (konektivita je levna a konkurence vysoka).

    > bezny akademicky server ma cca 100000 stran

    Pokud je "uzke hrdlo" na strane vzdaleneho serveru (moc dokumentu spolu s limitem na roboti aktivitu), neda se nic delat, slusne se chovajici crawler proste nestahne vsechny stranky, coz ale kvalitu celeho indexu vyznamne neposkodi.

    > Pokud empyreum jede paralelne vsechny servery najednou (coz nelze, ale dejme tomu)

    Vsechny profi crawlery indexuji samozrejme paralelne, a to i nekolik tisicu vzdalenych serveru najednou.

    > Cislo o nekolika mesicich pochazi od lidi, kteri to nejednou delali a to ve stylu "polite".

    Muzete jmenovat sve zdroje? :)

    Vsechny ceske vyhledavace, co znam, jsou relativne polite (i kdyz se treba Megatext neustale zapleta do nejakych scriptu), a trva jim to kratsi dobu.

    Tedy kdyz budu pocitat ja:

    Pocet stranek: 7 000 000
    Rychlost: rekneme 80 dokumentu za sekundu
    => 24 hodin crawlovani

    V praxi je to dyl, protoze cca posledni dva miliony dokumentu uz jdou strasne pomalu (zbyvaji uz jen pomale servery a chybove hlasky).




  • 11. 1. 2002 23:04

    k.p. (neregistrovaný)
    pozn.: pro members.aol.com indexuje aktualne google.com vice jak 600.000 dokumentu. Takove pocty obecne vznikaji dynamizaci a amortizacnim crawlovanim, ale presto nelze tvrdit, ze crawler stahne jen "neco", kdyz je server prilis obsahly. members.aol.com ma 3x dns-rr, presto vsak na 1 IP pripada vice jak 200.000 dokumentu.

    Dale upozornuji, ze jsem nehovoril o aktualnim poctu dokumentu v *.CZ, ale o minimalnim poctu. Prosim, aby mi nebyly vkladany k vyjadreni slova, ktera jsem nenapsal.

    To, ze nestahnete vse ze serveru, pochopitelne kvalitu indexu poskodi. Vase znalosti jsou v tomto pravdepodobne nepresne. Jiz Knuth kdysi rekl, ze je chybou, kdyz vznika teoreticka vec bez praktickych podkladu, a prakticka vec bez teoretickych.

    K otazce crawlovani nekolika tisici spojeni se nebudu vyjadrovat. Zabredli bychom k distribuovanemu crawlingu, ktery ma s ceskou domenou jiz velice malo spolecneho.

    Myslim, ze bude vhodne tuto zajimavou diskuzi prerusit, ev. ji presunout ke clanku o empyreu, ktery je jiz na ceste. Pripadne je mozne vyuzit muj e-mail k privatni diskuzi. Nerad bych byl verejnymi osobnimi vypady tvurcu ovlivnen pro dalsi recenze. Necini mi problem diskutovat verejne pristupnymi praktickymi podklady (viz overitelne hodnoty vyse), a rad tak ucinim. Jenom si myslim, ze je vzdy vhodnejsi zeptat se, nez pouzivat ton, ktery je zbytecne osobne konfrontacni. Konfrontovat se maji nazory. Na zaver bych rad uvedl, ze nechci se ctenari zavodit v mire praktickych ci teoretickych znalosti. Mnoho psu - zajicova smrt.
  • 13. 1. 2002 19:21

    Dan Lukes (neregistrovaný)
    Tedy CELKOVA kvalita databaze je dana jeji CELKOVOU velikosti a kriterii vyberu.

    Nevim jak pro vas pany odborniky, ale pro me, laickeho uzivatele, je celkova kvalita databaze primo umerna pravdepodobnosti, ze najdu to, co hledam a neprimo umerna dobe, kterou na to musim venovat. Nejsem si tak uplne jist, ze to je totez, co rikate vy ...

  • 14. 1. 2002 19:27

    Martin Kopta (neregistrovaný)
    Dlouho jsme zvažovali, jestli Karlu Pánkovi (tomu, co píše ty recenze) pro účely publikování na Lupě nevymyslet pseudonym, ale pak jsme si řekli, že by se čtenářům nemuselo líbit, že tu někteří autoři, zvláště recenzenti, vystupují pod smyšlenými jmény. Ostatně, anonymitu recenzentů odsuzuje už Schopenhauer.

    Škoda, že se nepoužívají v Čechách druhá křestní jména, pravděpodobnost shody by se dále omezila.
  • 14. 1. 2002 19:30

    Martin Kopta (neregistrovaný)
    Když jsem byl dotázán, odkud vím o existenci WebSeeku, odpověděl jsem, že z logů Lupy. Prostě indexují tak intenzivně, že se to ve výsledcích výrazně projeví. Takže ono na těch rychlostech indexování něco bude.
  • 12. 1. 2002 13:22

    Michal Illich (neregistrovaný)
    > Dale upozornuji, ze jsem nehovoril o aktualnim poctu dokumentu v *.CZ, ale o minimalnim poctu.

    Minimalni pocet je nicnerikajici cislo - jak jste toto "minimum" urcil - z ceho a proc?

    > To, ze nestahnete vse ze serveru, pochopitelne kvalitu indexu poskodi.

    V .cz existuji stovky "nekonecnych smycek", do kterych by se neopatrny crawler mohl zaplest. Tedy neni mozne nikdy stahnout "vse". Jednim ze zpusobu, jak kvalitu indexu ZLEPSIT je prave selektivni crawlovani - z kazdeho zdroje stahnout jen prave tolik dat, nakolik je server vseobecne znamy. Jeste lepsi algoritmy zohlednuji vzajemnou ruznost dat.

    > K otazce crawlovani nekolika tisici spojeni se nebudu vyjadrovat. Zabredli bychom k distribuovanemu crawlingu, ktery ma s ceskou domenou jiz velice malo spolecneho.

    Nejmene trikrat se snazite odbehnout od tematu, kde se ukazalo, ze vase znalosti nejsou presne nebo podlozene...

    Samozrejme ze JE MOZNE crawlovat s nekolika tisici spojenimi (a to na jedinem unixovem stroji), a i .cz domene se to tak dela.

    > Myslim, ze bude vhodne tuto zajimavou diskuzi prerusit, ev. ji presunout ke clanku o empyreu, ktery je jiz na ceste. Pripadne je mozne vyuzit muj e-mail k privatni diskuzi. Nerad bych byl verejnymi osobnimi vypady tvurcu ovlivnen pro dalsi recenze.

    (1) Nemluvim o Empyreu - jak vidite ze vsech mych prispevku v tomto foru, Empyreum jsem ani jednou nezminil. Mluvim vzdy obecne, a to se znalosti mnoha ruznych vyhledavacu, jak ceskych, tak zahranicnich, jak komercnich, tak free.

    (2) Nemluvim za Empyreum - vsechny moje nazory jsou soukrome, a nijak je s Empyreum k.s. nespojujte.

    (3) Nejsem osobni. Cely prispevek byl krome prvni vety ciste vecny a dolozeny konkretnimi cisly (na ktere jste neodpovedel). Za prvni vetou si nicmene stojim, protoze se jak v clancich, tak ve vasich reakcich vyskytuji informace, ktere jsou pouze knizni a s beznou praxi maji malo spolecneho.

    Mrzi me, ze vas prvni veta prvniho prispevku a mozna i predchozi veta tohoto, ladi do osobne-konfrontacni roviny. Take mam rad vecnou diskusi a myslim, ze z ni casteji vypadavate vy nez ja.

  • 13. 1. 2002 16:24

    k.p. (neregistrovaný)
    Minimalni pocet je minimalni pocet stranek, ktere byste mel zindexovat, aby se dalo hovorit o tom, ze indexujete CZ. Vychazi z prace, kterou lze ziskat v knihovne (zkuste to prosim).

    Proc Google.com indexuje na sweb.cz vice jak 60.000 stran? Vase vyjadreni o tom, ze se server indexuje jen z casti, kdyz ma tak moc stranek, neni pravdive. Dalsim serverem je linux.cz, ktery ma vice jak 120.000 stranek jen v zaloze mailing listu. Jak pak muzete indexovat linux.cz nebo sweb.cz za mene nez 10 dni, aniz byste jej pretizili je nejasne. Muzete prosim zduvodnit proc nezindexovani vsech stranek nezhorsuje kvalitu (presnost+uplnost)? Proc by mel zahranicni server indexovat v CZ vice povolneji nez Vy - specializovani?

    Take je nejasne, proc pri cislech, ktere jste udal, vychazi jen 20-40 paralelnich konekci. To az o 2-3 rady nesouhlasi s tim, ze se v CZ crawluje po tisicich. Mozna to nekdo dela, ale naprosto zbytecne, protoze po tisicich muze pracovat mozna jen prvnich par minut tvorby indexu. Proto je irelevantni o tomto hovorit v ramci ceske domeny. I tento Vas vyrok musim pokladat za velmi nepresny.

    Dale si myslim, ze z profesionalni roviny vypadavate s vetsi pravdepodobnosti nez ja. Uvazte pri tom kolik prispevku v diskuzi jsem napsal ja a kolik Vy. Rozdil mezi nami je, ze ja se k Vasi osobe zasadne nevyjadruji.
  • 13. 1. 2002 17:09

    Michal Illich (neregistrovaný)
    Zrejme nevychazite z vlastniho stinu, do osobniho vypadu (sic lehkeho, ale prece) jste presel hned v prvnim odstavci :)

    > Minimalni pocet je minimalni pocet stranek, ktere byste mel zindexovat, aby se dalo hovorit o tom, ze indexujete CZ. Vychazi z prace, kterou lze ziskat v knihovne (zkuste to prosim).

    Z vase tvrzeni primo vyplyva, ze "Seznam neindexuje CZ". To je dost odvazne tvrzeni.

    Navic toto, o cem diskutujeme, prece v zadnem pripade neni ANO/NE rozdeleni (do urciteho poctu nesmyslne, pak najednou uz smysluplne). Je to spis fuzzy rozlozeni, kde vicemene plati - vice=lepe, i kdyz ten vztah neni linearni.

    > Proc Google.com indexuje na sweb.cz vice jak 60.000 stran? Vase vyjadreni o tom, ze se server indexuje jen z casti, kdyz ma tak moc stranek, neni pravdive.

    Nic takoveho jsem take nerekl.

    I ceske fulltexty indexuji hodne z jednotlivych serveru, napr. z cuni.cz ma Empyreum Fulltext 300 tisic odkazu, WebFast 56000 (Google 185000).

    Jeste jednou, co nejjasneji zopakuju svou myslenku: neni treba z kazdeho serveru zaindexovat vsechno, naopak je nutne mit databazi co nejsirsi, aby obsahovala co nejpestrejsi paletu stranek z nejruznejsich serveru. Protoze databaze nemuze byt nekonecne velka (zatimco pocet ruznych URL, na kterych je nejaky obsah, nekonecny je), je nutne udelat vyber. Ten vyber by mel splnovat podminku homogenity, tedy neindexovat z jednoho serveru bezduvodne mnoho a z jineho nic. Jedine pestrosti a co nejvetsim rozsahem databaze dosahnete kvalitnich vysledku.

    Tedy CELKOVA kvalita databaze je dana jeji CELKOVOU velikosti a kriterii vyberu.





  • 14. 1. 2002 20:23

    Aleš Michálek (neregistrovaný)
    Nerikam, ze ne, ale kdyz neco srovnavat, tak to srovnavat po vsech strankach. Jinymi slovy, kdyz jdu na seznam.cz a potrebuju neco najit fulltextem a nezalezi mi na to, co je v katalogu, dam jasnou volbu Hledat Googlem.

    Rikam, co si myslim, nejak do teto problematiky tolik nevidim, nejsem nejakej 100%% profesional.
  • 14. 1. 2002 22:28

    Martin Kopta (neregistrovaný)
    Nemůžeme srovnávat české fulltexty mezi sebou a na Seznamu místo jejich ex-kompasu použít Google. Jestli používáte seznam jen kvůli tomu, abyste si nemusel zapamatovat URL google.com, tak to je něco jiného, než se tu snažíme zjistit. Proto si myslím, že sedíme každý v jiném kině.
  • 14. 1. 2002 15:10

    Michal Illich (neregistrovaný)
    >> Tedy CELKOVA kvalita databaze je dana jeji CELKOVOU velikosti a kriterii vyberu.
    > Nevim jak pro vas pany odborniky, ale pro me, laickeho uzivatele, je celkova kvalita databaze primo umerna pravdepodobnosti, ze najdu to, co hledam a neprimo umerna dobe, kterou na to musim venovat. Nejsem si tak uplne jist, ze to je totez, co rikate vy ...

    Rozlisujme "databazi" a "vyhledavac".
    Databaze je proste souhrn informaci, napr. webovych stranek - u ni se da prave mluvit o jeji velikosti a kriterii, podle kterych jsou do ni informace vkladany.
    Vyhledavac je pak nejaky program, ktery z databaze vybere informace, ktere podle nej nejlepe odpovidaji dotazu, ktery uzivatel pouzil. U nej potom muzete posuzovat relevanci.

    Rozpor byl zrejme v tom, ze ja mluvil o databazi a vy o vyhledavaci nad databazi.
  • 16. 1. 2002 1:05

    Dan Lukes (neregistrovaný)
    Ano, v podstate mate pravdu. Snad jen s tim, ze ona zminena "kriteria" vyberu tvori spojovaci clanek mezi "databazi" a "vyhledavacem nad databazi". Pokud nejsou nektere udaje do databaze vubec ukladany (kriterium vyberu) jde o stav ekvivalentni situaci, kdy jim vyhledavac nepriklada zadnou vahu (vyhledavac nad databazi). A jelikoz hovorit o kvalite databaze same bez ohledu nad tim jakym zpusobem je vyuzivana je ponekud nezvykle (a nejsem si prilis jist, zda je to vubec korektni) nenapadlo me, ze o techto dvou vecech uvazujete oddelene.

    Pokud jste tedy chtel rict, ze "databaze (coz je soubor informaci) ma tim vetsi rozsah cim vetsi objem informaci obsahuje" pak nelze nez souhlasit (uz proto, ze je to v zasade tautologie).

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).