Vlákno názorů k článku Proč nám fulltextový stroj nerozumí? od Michal Illich - V clanku je par nepresnosti, ale jsou to...

Článek je starý, nové názory již nelze přidávat.

Podle hodnocení
Podle vláken
Nejnovější

24. 1. 2002 19:43

Michal Illich (neregistrovaný)

V clanku je par nepresnosti, ale jsou to vicemene detaily:

(a) Prumerny pocet operatoru v dotazu = 0.41 ... to bude nejaky hodne stary udaj, navic asi z nejakeho stroje s dlouhodobymi a disciplinovanymi uzivateli (tipuju Altavistu). V soucasnosti je to MNOHONASOBNE min - uzivatele v podstate operatory uz nepouzivaji.

(b) "... interaktivním algoritmem" ... autor chtel zrejme rict iterativnim

(c) "v průniku může být asi pět procent dat" ... troufam si tvrdit, ze toto cislo neni nicim verohodne podlozene (to neznamena, ze neverim, ze nejaka studie toto cislo skutecne uvadi ;)) )

(d) "Naopak máme-li několik stránek, které obsahují jediný link na naši centrální stránku (CS), a z ní vedeme pár odkazů (zpětně se vracející opět na CS), můžeme tak na CS zvýšit PageRank." ... tato technika na zvyseni PageRanku nefunguje. Do tech "pomocnych" stranek by bylo nutne nalit PageRank zvenku; pokud bychom to delali, nalevali bychom ho radeji primo na centralni stranku.

(e) "To vede ke ztrátě až 50 procent relevantních odpovědí, když se zaměříme jen na cizí slova nebo slova s pravopisně obtížným hláskováním." ... to tvrdite, ze "cizi slova nebo slova s pravopisne obtiznych hlaskovanim" uzivatel zada blbe v 50% pripadu? - tak spatne na tom lide podle me nejsou.

(f) "Patrně z důvodu obavy z přehlcení kapacit linek nebyl tento stroj, dle mých neověřených informací, poskytnut k volnému veřejnému vyzkoušení." ... ten stroj je online a kdyz vite, jak ho najit, muzete v nem vyhledavat (ted jsem to zkousel). Vzhledem k tomu, ze jsem se k nemu proklikl pres Agreement "do not distibute this URL", tak vam uz vic nereknu ;)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 1. 2002 21:32

k.p. (neregistrovaný)

Dovysvetlim, co mohu, jinak dekuji za zpresneni.

(a) ano, vzal jsem udaje z doby, kdy byla AltaVista de facto monopol na fulltext v internetu. V opacnem pripade by bylo nutne spojovat udaje minimalne z googlu, avisty atp. Tyto vystupy jsem ale neziskal pro stejne casove obdobi, proto jsem nakonec sahnul po variante Avisty.

(b) autor to rekl i napsal. Pravdepodobne editor v zaplave mych beznych preklepu provedl mylnou opravu.

(c) Doporucuji: Bharat, Broder: A technique for measuring the relative size and overlap of public Web search engines. Viz. WWW conference, rocnik s dovolenim neuvedu, bude lepsi kdyz svoji neduveru pozitivne vlozite do sluzeb hledani toho spravneho rocniku :-)

(d) Mate pravdu. Ty vychozi stranky musi byt mimo. Mozna to z clanku neni patrne, ale smysl mel byt ten, ze jen nekolik stranek mimo, pres ty na titulku, a dalsimi odkazy uz na nasem serveru nepustit tento potencial ven. Pokud se procyklite v ramci sveho site zpet na titulku, bude potencial "nejak" ustrizen, ale tady nechci zabihat do podrobnosti. Ty techniky se pak uz lisi stroj od stroje. Nektere degraduji pri zjisteni smycky, jine to zastrihnou, jine to nechaji rust.

(e) Ano, tvrdim na zaklade literatury. Neni myslim v lidskych silach delat kazdy pokus. Mimojine pana, ktery toto cislo ziskal znam a vim, ze se plete jen velmi zridka.

(f) Prosim, aby i ostatni ucastnici postupovali stejne. Muze to ovlivnit vysledky testu, ktere tam bezi.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 1. 2002 8:40

jiri (neregistrovaný)

(f) jeden google-dotaz to spravi :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 1. 2002 16:59

Michal Illich (neregistrovaný)

> (c) Doporucuji: Bharat, Broder: A technique for measuring the relative size and overlap of public Web search engines

Tu studii znam. V jejim conclusion je:

> We found AltaVista to be the
largest search engine at that point in time with a 62% share of the
combined set of URLs indexed by the four major engines, and a
consistent 50% coverage of each of the three other search
engines. Based on estimates that AltaVista's size was approximately
100 million documents, we conjecture that the size of the static
public Web as of November 1997 was at least 200 million documents.

To jsou o neco optimistictejsi cisla.
Navic ted maji Google i narodni fulltexty zaindexovano pomerne vic.

> e) Ano, tvrdim na zaklade literatury. Neni myslim v lidskych silach delat kazdy pokus. Mimojine pana, ktery toto cislo ziskal znam a vim, ze se plete jen velmi zridka.

To ja verim vic lidem. Prece jenom zprasit cizi slovo s 50% pravdepodobnosti je podle mne prilis.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 1. 2002 20:52

k.p. (neregistrovaný)

(c) V tuto chvili Vas asi musim odkazat na pana kolegu Baeza-Yatese, ktery potvrdi cisla, ktera jsem uvedl a to s ohledem na citovane prace, jeho zaver taktez v originale zni: "In fact, fewer than 1% of the Web pages indexed by AltaVista, HotBot, Excite, and Infoseek are in all of those search engines. This fact is quite surprising and has not been explained yet.".

Domnivam se, ze kazdy z nas diskutuje jina cisla, resp. si urcite hodnoty jinak vyklada.

(e) Vas nazor neumim kvalifikovane zhodnotit. Ja vice verim vedeckym zaverum, nez osobnim dojmum. Dojmy mnohdy klamou.

Vlákno názorů k článku Proč nám fulltextový stroj nerozumí? od Michal Illich - V clanku je par nepresnosti, ale jsou to...

Dále u nás najdete

Daně 2026: Výhody pro startupy, družstevníky či majitele akcií

Věřit, nebo nevěřit Paretovu pravidlu 20/80?

Internistů ubývá. Deset ordinací ročně, tisíc lůžek za deset let

Proč firmy v roce 2026 přecházejí na externí účetnictví?

test 3

Kvůli infekci přišel o plíce i prsty u nohou, lékaři ho vrátili do života

Účetní a nová povinná registrace v rámci AML zákona

Jak jsme se „nechali podvést“ a útočníkům zrušili web

InfinityBook Max 16 je nadupaná pracovní mašina v tenkém těle

Lékaři zachraňují pacientům nohy díky speciální protéze

Zemřel Scott Adams, tvůrce slavného komiksu Dilber

První aktualizace Chrome v roce 2026 řeší kritickou zranitelnost

Slevy na dani v roce 2025 a v roce 2026

Nastoupili jste loni na novou pozici v IT? Tak byste měli dostat přidáno

Vláda potvrdila konec televizních poplatků, náhradu nezná

test 2

Sdílejte své vzpomínky stylově: Úprava fotek jako od profíka.

Daň z nemovitých věcí

Udržitelnost odtud potud. Čechům vadí balení telefonů bez nabíječky

Vstup Czechoslovak Group na burzu nabývá konkrétnější podoby