Vlákno názorů k článku Co opravdu očekáváme od vyhledávačů? od jk - "Interaktivní" obsah webu - výsledky dotazů do různých...

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 5. 2003 9:57

    jk (neregistrovaný)
    "Interaktivní" obsah webu - výsledky dotazů do různých databází atp.

    Jinak jsem pesimista - vyhledávače především trápí, jak vylepšit hledání pro "internetově hloupého uživatele". Výsledkem takových vylepšení bude, že "hloupý uživatel" dokáže najít to co dnes já (jo, považuju se za "internetově chytrého uživatele") a já o trošku víc a snad pohodlněji.

  • 12. 5. 2003 12:29

    Jiří Donát (neregistrovaný)
    Problémy v oblasti "interaktivního" obsahu jsou mimochodem zákonité a souvisejí s největší silou a zároveň i slabinou Google: rozlišování "hodnosti" stránek (Page Ranku) podle množství odkazů na danou stránku. Tento mechanismus sice funguje dobře, je ale zatížen zákonitým časovým zpožděním. Zcela proto selhává v případě zpráv: pokud je někde zemětřesení, těžko budeme čekat, až na tuto zprávu bude odkazovat dostatečné množství lidí ze svých stránek.

    Google si to uvědomuje a pokouší se to řešit pomocí své služby news.google.com; zde jsou zprávy řazeny primárně podle času od nejnovějších po nejstarší a k jejich uveřejnění postačí, že pocházejí z důvěryhodného zdroje. Slabinou tohoto mechanismu ale je, že někdo musí stanovit, kdo je a kdo není tímto "důvěryhodným" zdrojem - tato část je zřejmě prováděna ručně (přesný algoritmus nebyl zveřejněn). To představuje velký problém - důsledky viz za okamžik.

    Také v Google je navíc zapotřebí rozlišovat "důležitost" zpráv (analogie "hodnosti"), neboť jinak by nebylo zřejmé, které zprávy zařadit na automaticky generovanou titulní zprávu, kterou každá taková služba "musí" mít (zejména z důvodu návštěvnosti). Pokud bychom vycházeli pouze z časového údaje, dostali bychom službu typu www.newshub.com, tedy titulní stránku, která se neustále mění, a která tedy není pro čtenáře příliš zajímavá (přece se na ní nebude dívat stokrát denně - na to nemá čas nikdo). Předpokládám, že relevance zprávy je ve službě news.google.com definována počtem jejích výskytů v monitorovaných médiích. A zde jsou možná slabá místa:

    1) Jak zjistit, že daná zpráva ze dvou různých zdrojů je "stejná", tedy že pochází ze stejného zdroje?

    2) Kdo vybírá oněch privilegovaných 4500 zdrojů, které jsou relevantní? Právě zde je totiž zásadní problém - zatímco vyhledávání v "klasickém" Google pomocí Page Rank funguje vcelku dobře i pro český obsah (zřejmý důsledek toho, že stanovení Page Rank probíhá automaticky), vyhledávání ve zprávách nefunguje pro český obsah ani náhodou. Vyzkoušejte si sami... Odborníci Google neznají česká média. Ale v reálném světě to od nich ani chtít nemůžeme. To je tedy zásadní slabina, kterou by Google mít neměl.


    Nenapadá někoho, jak by se hodnocení informačních zdrojů (a tedy identifikace "privilegovaných" zdrojů) dalo automatizovat, a tím i objektivizovat? Výsledkem by mimo jiné bylo, že by news.google.com začal fungovat i pro neanglické stránky.
  • 12. 5. 2003 12:53

    Jiří Donát (neregistrovaný)
    Napadlo mě, že výběr zpráv na hlavní stranu Google by šel udělat mnohem jednodušeji, než zde popisuji: prostě definovat v rámci privilegovaných zdrojů podmnožinu "ještě privilegovanějších", jejichž titulní zprávy by automaticky a bez zpoždění přecházely na první stránku Google. Když někdo (dobře placený odborník) zařadí článek na titulní stranu cnn.com či BBC, Google nemůže udělat chybu, když ho tam dá také. Algoritmus z bodu 1 by tedy byl zapotřebí pouze pro to, aby se stejná zpráva neobjevila na titulní stránce dvakrát či třikrát.

    To ale neřeší náš problém, spíše ho ještě zvětšuje: výběr důležitých zpráv závisí o to více na výběru důležitých a "důležitějších" médií. A idnes.cz či ihned.cz je v takovém případě ze hry...
  • 12. 5. 2003 13:44

    Fico (neregistrovaný)
    Kdyz je nekde zemetreseni, tak pageRank funguje dobre, protoze pokud to zverejni na strance s velkym pageRankem, tak se tomu da verit, a je to v hit listu nahore.

    Krom toho google crawluje podle pageranku a refresh priority (ta je dynamicky urcena frekvenci a rozsahem update dane stranky). Nevidim problem. Problem je centristicka architektura googlu. Ale jak jsem napsal jinde, google zacina byt brontosaurus, co se prezil.

    Ted jde jen o to, jestli Microsoft napise ten svuj super stroj driv jak nekdo druhy. Podle toho co vim, verim v to druhe.
  • 12. 5. 2003 14:37

    Fico (neregistrovaný)
    To je (a nejenom) dano tim, ze matematicky model prevodu "news" zprav do ciselne "pocitacove" formy, se vyrazne odlisuje od bezneho "webu".

    Mimo jine tim vyriznou uzivatele, kteri hledaji jen zpravy. To stroj pochopitelne nepozna, kdyz mu nekdo napise "vulcan", co dotycny chce. Muze chtit zpravy z reuters (news oblast), seznam vulkanu (web stranky - veda), nebo komercni nabidku jedne firmy (web stranky - komerce).

    Oddelenim news se to pro uzivatele zprehledni.

    Je z toho videt, ze puvodni obecne algoritmy google nejsou idealni, protoze pro realne pouziti je potreba parametrizovat (news/web/komerce/maillist/...).

    Je ale lepsi otazka - jestli reseni "news" nelze udelat pomoci clustrovaci techniky co pred 10ti lety delal Cutting a spol.
  • 12. 5. 2003 15:10

    Jiří Donát (neregistrovaný)
    Já bych to viděl trošku jinak. Je tady totiž problém, jak definovat "zprávy". Pokud se něco chci dovědět o jakémkoliv subjektu (ať už je to konkrétní sopka, konkrétní firma nebo třeba konkrétní ostrov), zcela jistě nebudu chtít "zprávy" vynechat. Ty mně totiž poskytují ty nejčerstvější informace. A pak mohu potřebovat nějaké další, historické informace, třeba z klasických domovských stránek, z encyklopedií nebo z cestopisů lidí, kteří ta místa někdy v minulosti navštívili. Z mého pohledu je tedy jedinou odlišností "zpráv" to, že jsou řazeny podle času vydání. A přesně tak to dnes funguje i na Google: zkuste hledat třeba "Microsoft" v klasickém Google nebo v news.google.com - rozdíl je zcela zřejmý.

    Já bych tedy "zprávy" definoval jako službu uživateli, který již daný subjekt zná, který však o něm potřebuje nejnovější informace. Vidíte to jinak?

    PS: byl bych rád, kdybyste mohl uvést nějaké odkazy na Cuttinga. Na Google jsem neuspěl, protože "cutting edge technology" je příliš populární buzzword, takže nějaký pán stejného jména nemá šanci...
  • 12. 5. 2003 16:30

    Fico (neregistrovaný)
    Hluboce nesouhlasim. Vyhledavac ma jen cca 10 pozic na vraceni aspon 1 zasahu, ktery vyzadujete. Kdyz si tyto pozice zaplacne web-odkazy misto news-odkazy co chcete (nebo naopak), prohral. Vas zpusob hledani je vysokoskolsky - chcete reference, pak jste spokojen. Vas se pak hot-top-spot problem netyka, ale vetsinou lide chteji uz primo cil, nez se prohrabovat (byt zajimavym) seznamem odkazu...

    News google - stroj uz tim kde hledate, vi co hledate. Kdyby ale vedel kdo jste (profil), hledal by jeste o tridu lepe. Proto reseni z google je jen reseni z nouze, sice mozna zajimave, ale je to jen zaplata.

    "Definice" zpravy neni az tak komplikovana - "dobra" zprava je na dobrem pageRankove strance pouze kratce, pak jde na misto lowRankove a zustava tam. "Flash" je pak zprava, co take zije kratce, ale nejde na lowRank.
  • 13. 5. 2003 8:56

    Jiří Donát (neregistrovaný)
    Omlouvám se, ale Vaše definice zprávy je prakticky těžko použitelná, neboť podle ní poznáme zprávu až po určitém čase, podle toho, jak se vyvíjela její popularita. Pokud by takto postupovaly vyhledávače, byly by schopny poznat, že šlo o zprávu, až ve chvíli, kdy už by byla stará...
  • 13. 5. 2003 13:38

    Fico (neregistrovaný)
    Pochopitelne by zminenou definici dany vyhledavac objevil mista, kde se zpravy objevuji - naucil by se to. V tom je ten figl.

    Kdyz vse vezmete jako staticke stranky, nikdy zpravu nepoznate. Proto je uvedena definice jedina pouzitelna, o kazde jine lze naopak dokazat, ze je nepouzitelna.

    PageRank prece take spocitate az po urcitem case, to neni hodnota, kterou mate hned co danou stranku stahnete (jestlize dokazete opak, dejte mi prosim vedet). A presto je to pouzitelne.
  • 14. 5. 2003 1:25

    Honza (neregistrovaný)
    Nedavno jsem cetl, ze co se tyce googlu, maji se zpravami velike problemy. ve fulltextu totiz nepoznaji zda jde o jeste aktualni zpravu nebo ne. A pokud je nejaka zhava novinka, tak se tam neobjevy hned, ale az po case. Viz zaplavy v CR letos se na googlu objevily az za mesic po jejich konci. Proto udelali news.google.com ve kterem pouzivaji jine algoritmy pro vyhledavani techto zprav - vse je dostupnejsi uz jenom kvuli omu, ze tato databaze odkazu je podstatne mensi nez cela db googlu.
  • 14. 5. 2003 9:19

    Michal Illich (neregistrovaný)
    PageRank prece take spocitate az po urcitem case, to neni hodnota, kterou mate hned co danou stranku stahnete (jestlize dokazete opak, dejte mi prosim vedet).

    Ve skutecnosti, PageRank muzete spocitat dokonce jeste predtim, nez danou stranku stahnete :)
    Viz definice PageRanku - jeho hodnota pro urcitou stranku neni ovlivnena vubec nicim, co se na one strance nachazi.

    V praxi je ale PageRank ci jeho obdoby obvykle pocitan jednou za nejaky cas, protoze je to casove narocne (u Google je perioda jeden mesic, u Jyxa jeden den, u AllTheWebu pravdepodobne jeden tyden).


    Jeste k ruznym dalsim napadum z jinych prispevku:
    Kategorizace stranek pomoci ciselniku - ano, tenhle projekt existuje, jmenuje se Open Grid. Bohuzel se vubec nerozjel kvuli obvyklemu zacarovanemu kruhu, ktery je primo v jadru podobnych myslenek.


    Koudelka bez RPG her - tak ono staci zadat dotaz jako koudelka -RPG. Alespon tohle je ve vetsine pripadu vyresene...

  • 14. 5. 2003 14:15

    Fico (neregistrovaný)
    Priklad: nic nemate stazene, zacinate. Opravdu jste schopen predtim nez stahnete http://www.ibm.cz/tech/a/b/c/d rict pagerank teto stranky? V takovem pripade ho nemuzete ani odhadnout IMHO.

    Nevim jaky pagerank znate vy, ale normalne se v nem pocita s poctem linku do stranky a ze stranky (tj. ta stranka je treba). Znam heuristiky pro situace, kdy je jiz stanoven pagerank ostatnich stranek a treba urcit pg nove stranky, to umim. Ale obecne to neumim, a spise by mi to pripominalo vesteni z kristalove koule nez vypocet (viz. priklad vyse).
  • 14. 5. 2003 14:38

    Michal Illich (neregistrovaný)
    PageRank nejake stranky je:

    P(A) = d/N + (1-d)*Soucet(P(B)/outdegree(B))

    Kde A je ta stranka, B jsou vsechny stranky, ktere na ni odkazuji, d je konstanta, N je pocet dokumentu.

    Tedy vidite, ze pro vypocet P(A) neni potreba znat zadnou vlastnost stranky A - pouze vlastnosti stranek, ktere na ni odkazuji.

    > [poctem linku] ze stranky (tj. ta stranka je treba)
    (tohle prave neplati, viz vzorec)

    Pridanim podminky "nic nemate stazene" samozrejme menite situaci; ale o tom rec nebyla - slo o to, zda vyhledavac muze urcit pagerank stranky pred stazenim, po stazeni nebo dokonce az nejakou dobu pote (vase puvodni tvrzeni).
  • 14. 5. 2003 17:15

    Fico (neregistrovaný)
    Fakticky: zadne omezujici podminky nebyly, proto vas predpoklad, ze uz neco vite o jinych strankach NESPLNUJE predpoklady meho tvrzeni. Ukazal jsem jednoduchy protipriklad, kdy je vase tvrzeni chybne.

    Ve Vasi rovnici je evidentne nejen P(A) zavisle od P(B), ale i naopak. Proto opet nemate pravdu, ze pro stanoveni pg na obsahu (odkazech) stahovane stranky nezalezi. Zalezi.

    Prijmeme-li DODATECNY predpoklad, ze nam staci urcita presnost stanoveni pg, pak pochopitelne pg je mozne odhadnout i pred stazenim jakekoliv stranky.

    Pohotovy ctenar zajiste rychle stanovi vzdalenost Zeme-Slunce s presnosti na jeden svetelny rok :-) (tim chci naznacit, ze jiz nechapu smer tohoto vlakna, ale rad se necham prekvapit nejakou brilantni matematickou myslenkou)
  • 14. 5. 2003 19:34

    Michal Illich (neregistrovaný)
    > Prijmeme-li DODATECNY predpoklad, ze nam staci urcita presnost stanoveni pg, pak pochopitelne pg je mozne odhadnout i pred stazenim jakekoliv stranky.

    Tento predpoklad neni nijak dodatecny, je uplne v zakladu vypoctu pageranku - ten se pocita iterativne a jen do urcite presnosti. Viz literatura dostupna na webu.

    Takze nemam co bych menil na tom, co jsem uz rekl.

    > Ve Vasi rovnici je evidentne nejen P(A) zavisle od P(B), ale i naopak.

    A pokud bychom tuhle uvahu dovedli do konce, tak bychom zjistili, ze vlastne pagerank nelze nikdy vypocitat :)) - coz je sice (brano absolutne) pravda, ale trochu to neodpovida tomu, ze se pagerank bezne pocita...
  • 15. 5. 2003 4:41

    Fico (neregistrovaný)
    Tedy znovu - pg neni mozne stanovit pred stazenim stranky (v obecnem pripade), protoze obsah takove stranky ovlivnuje samotny vypocet - ovlivnuje ho pocet odkazu jdoucich z teto stranky. Jestli tohle nechapete, tak uz vazne nevim jestli je porad 1+1=2.

    Uvedte laskave prime odkazy, kde tvrdi opak, jste-li toho schopen.
  • 15. 5. 2003 10:34

    Michal Illich (neregistrovaný)
    My se vazne mijime :)

    1. Vypocet PageRanku je vzdycky (vzdycky!) priblizny.
    2. Stejnym (stejnym!) zpusobem a vzorcem, jakym pocitate PageRank pro zacrawlovane stranky, jej muzete vypocitat i pro novou stranku, kterou ve sve databazi nemate jeste zarazenou. (a jak vyplyva z 1, bude to opet priblizne).
    3. Nikde jsem netvrdil, ze zacrawlovanim nove stranky neziskate dalsi informaci, ktera pak lehce zmeni pageranky sveho okoli. Ale to je vlastnost, se kterou se jiz predem pocita, a PageRank je primo od zacatku navrhovan pro grafy, ktere jsou neuplne (jako napr. databaze vyhledavace).
    4. Kdyztak se muze laskavy ctenar vratit a procist si cely nas thread - to jak zacal a na co bylo vzdy reagovano (a zjisti souvislosti, vyznamove posuny a dodatecne podminky, ktera se snazi opravit drivejsi omyly).

    Prime odkazy, ktere jste si pral:
    1. "" (tedy tato diskuse; vzorec, ze ktereho muzete odvodit vse dalsi, je uz tady).
    2. http://www-db.stanford.edu/~backrub/google.html (originalni research paper Pagee a Brina)
    3. http://www.google.com/search?hl=en&q=jyxo+site%3Ajyxo.cz (zde uvidite, ze google skutecne pageranky pro nezaindexovane stranky pocita; tyto pageranky mohou byt i pomerne vysoke, jak vidite z poradi vypsanych odkazu; legenda: jsou to odkazy ze sexusu; v robots.txt je ale indexovani techto stranek zakazane)
  • 15. 5. 2003 17:44

    Honza (neregistrovaný)
    Stale jeste nemate chut zacit delat svuj projekt s nama? Vse potrebne k tomu mame, staci pouze napsat na mail a muzeme se domluvit na ostatnich vecech.
  • 16. 5. 2003 17:18

    Michal Illich (neregistrovaný)
    Nic si z toho nedelejte, mne se take neozval :))
    A to jsem komukoliv s dobrym napadem na zlepseni vyhledavani schopen poskytnout velmi slusne zazemi...

  • 13. 5. 2003 9:01

    Jiří Donát (neregistrovaný)
    Jinak s personalizací vyhledávače samozřejmě souhlasím. Právě zde je klíč k významnému zlepšení funkčnosti internetu.
  • 15. 5. 2003 18:12

    Jiří Donát (neregistrovaný)
    Díval jsem se na to, jak by šel Váš námět realizovat, a musím přiznat, že na Google těžko. Alespoň pro česká média. Tak například homepage http://idnes.cz nemá žádný PageRank (to je pro mě docela záhada), ihned má 6, Lupa má 5, ale kupodivu stejný PageRank má úplně celý obsah Lupy - od Homepage až po poslední eWorkshop před třemi lety a třeba i po tuto stránku. http://ihned.cz/ má 6, http://ekonom.ihned.cz/ a hn.ihned.cz 5, ale pětku mají i všechny články, jakkoliv staré. Takže by to chtělo ještě trochu vylepšit.
    Pro úplnost jsem se díval, jak funguje cnn.com. Tam má titulní strana 9 a plný text článků z ní vedoucí 2. To už je lepší typ chování, ale problém je v tom, že ty plné články nikdy nemají devět, jak naznačujete - pouze jsou po určitou dobu z takové strany odkazovány.
  • 12. 5. 2003 13:02

    Adam Hauner (neregistrovaný)
    "Interaktivní" obsah webu - výsledky dotazů do různých databází atp.

    Takovému obsahu se říká neviditelný web.

    Viz také:

  • 12. 5. 2003 13:59

    Fico (neregistrovaný)
    Byl bych pro striktni oddelovani dvou zasadnich slov:

    a) neumeji
    b) nechteji
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).