Vlákno názorů k článku Proč nám fulltextový stroj nerozumí? od k.p. - (c) V tuto chvili Vas asi musim odkazat...

  • Článek je starý, nové názory již nelze přidávat.
  • 25. 1. 2002 21:52

    k.p. (neregistrovaný)
    (c) V tuto chvili Vas asi musim odkazat na pana kolegu Baeza-Yatese, ktery potvrdi cisla, ktera jsem uvedl a to s ohledem na citovane prace, jeho zaver taktez v originale zni: "In fact, fewer than 1% of the Web pages indexed by AltaVista, HotBot, Excite, and Infoseek are in all of those search engines. This fact is quite surprising and has not been explained yet.".

    Domnivam se, ze kazdy z nas diskutuje jina cisla, resp. si urcite hodnoty jinak vyklada.

    (e) Vas nazor neumim kvalifikovane zhodnotit. Ja vice verim vedeckym zaverum, nez osobnim dojmum. Dojmy mnohdy klamou.
  • 25. 1. 2002 17:59

    Michal Illich (neregistrovaný)
    > (c) Doporucuji: Bharat, Broder: A technique for measuring the relative size and overlap of public Web search engines

    Tu studii znam. V jejim conclusion je:

    > We found AltaVista to be the
    largest search engine at that point in time with a 62% share of the
    combined set of URLs indexed by the four major engines, and a
    consistent 50% coverage of each of the three other search
    engines. Based on estimates that AltaVista's size was approximately
    100 million documents, we conjecture that the size of the static
    public Web as of November 1997 was at least 200 million documents.

    To jsou o neco optimistictejsi cisla.
    Navic ted maji Google i narodni fulltexty zaindexovano pomerne vic.

    > e) Ano, tvrdim na zaklade literatury. Neni myslim v lidskych silach delat kazdy pokus. Mimojine pana, ktery toto cislo ziskal znam a vim, ze se plete jen velmi zridka.

    To ja verim vic lidem. Prece jenom zprasit cizi slovo s 50% pravdepodobnosti je podle mne prilis.

  • 24. 1. 2002 22:32

    k.p. (neregistrovaný)
    Dovysvetlim, co mohu, jinak dekuji za zpresneni.

    (a) ano, vzal jsem udaje z doby, kdy byla AltaVista de facto monopol na fulltext v internetu. V opacnem pripade by bylo nutne spojovat udaje minimalne z googlu, avisty atp. Tyto vystupy jsem ale neziskal pro stejne casove obdobi, proto jsem nakonec sahnul po variante Avisty.

    (b) autor to rekl i napsal. Pravdepodobne editor v zaplave mych beznych preklepu provedl mylnou opravu.

    (c) Doporucuji: Bharat, Broder: A technique for measuring the relative size and overlap of public Web search engines. Viz. WWW conference, rocnik s dovolenim neuvedu, bude lepsi kdyz svoji neduveru pozitivne vlozite do sluzeb hledani toho spravneho rocniku :-)

    (d) Mate pravdu. Ty vychozi stranky musi byt mimo. Mozna to z clanku neni patrne, ale smysl mel byt ten, ze jen nekolik stranek mimo, pres ty na titulku, a dalsimi odkazy uz na nasem serveru nepustit tento potencial ven. Pokud se procyklite v ramci sveho site zpet na titulku, bude potencial "nejak" ustrizen, ale tady nechci zabihat do podrobnosti. Ty techniky se pak uz lisi stroj od stroje. Nektere degraduji pri zjisteni smycky, jine to zastrihnou, jine to nechaji rust.

    (e) Ano, tvrdim na zaklade literatury. Neni myslim v lidskych silach delat kazdy pokus. Mimojine pana, ktery toto cislo ziskal znam a vim, ze se plete jen velmi zridka.

    (f) Prosim, aby i ostatni ucastnici postupovali stejne. Muze to ovlivnit vysledky testu, ktere tam bezi.
  • 24. 1. 2002 20:43

    Michal Illich (neregistrovaný)
    V clanku je par nepresnosti, ale jsou to vicemene detaily:

    (a) Prumerny pocet operatoru v dotazu = 0.41 ... to bude nejaky hodne stary udaj, navic asi z nejakeho stroje s dlouhodobymi a disciplinovanymi uzivateli (tipuju Altavistu). V soucasnosti je to MNOHONASOBNE min - uzivatele v podstate operatory uz nepouzivaji.

    (b) "... interaktivním algoritmem" ... autor chtel zrejme rict iterativnim

    (c) "v průniku může být asi pět procent dat" ... troufam si tvrdit, ze toto cislo neni nicim verohodne podlozene (to neznamena, ze neverim, ze nejaka studie toto cislo skutecne uvadi ;)) )

    (d) "Naopak máme-li několik stránek, které obsahují jediný link na naši centrální stránku (CS), a z ní vedeme pár odkazů (zpětně se vracející opět na CS), můžeme tak na CS zvýšit PageRank." ... tato technika na zvyseni PageRanku nefunguje. Do tech "pomocnych" stranek by bylo nutne nalit PageRank zvenku; pokud bychom to delali, nalevali bychom ho radeji primo na centralni stranku.

    (e) "To vede ke ztrátě až 50 procent relevantních odpovědí, když se zaměříme jen na cizí slova nebo slova s pravopisně obtížným hláskováním." ... to tvrdite, ze "cizi slova nebo slova s pravopisne obtiznych hlaskovanim" uzivatel zada blbe v 50% pripadu? - tak spatne na tom lide podle me nejsou.

    (f) "Patrně z důvodu obavy z přehlcení kapacit linek nebyl tento stroj, dle mých neověřených informací, poskytnut k volnému veřejnému vyzkoušení." ... ten stroj je online a kdyz vite, jak ho najit, muzete v nem vyhledavat (ted jsem to zkousel). Vzhledem k tomu, ze jsem se k nemu proklikl pres Agreement "do not distibute this URL", tak vam uz vic nereknu ;)

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).