Vlákno názorů k článku Nové trendy ve vyhledávání (2) od Artur Linhart - Jak pise autor, lze jednu iteraci provest relativne...

  • Článek je starý, nové názory již nelze přidávat.
  • 22. 12. 2000 13:52

    Artur Linhart (neregistrovaný)
    Jak pise autor, lze jednu iteraci provest relativne rychle a protoze je to pasova ridka matice, dava vetsina metod rychlejsi vysledky nez u hustych matic - pokud ale konverguji. Prilis se touhle oblasti nezabyvam a nevim, jake metody se pouzivaji (to by byla jiste zajimava otazka, odpoved na ni ale asi bude soucasti "vyrobniho" tajemstvi vyhledavace) ale u vetsiny iteracnich metod pro reseni soustav jsou dany striktni podminky, za nichz lze ocekavat konvergenci a kdy metody konverguji dobre ci spatne. Urcite je dulezita regularita matice, pro metody je pak vetsinou vyznamna predevsim podminenost matice vyjadrena pomerem min. a max. vlastniho cisla. Muze to pak mit i vliv na rychlost - je sice hezke, ze mi jeden cyklus probehne dosti rychle, ale kdyz je matice spatne podminena tak potrebuji cyklu velmi mnoho, abych se dostal na pozadovanou uroven presnosti (nebo se na ni nikdy nemusim dostat). Protoze jsou tyto parametry nezname (tedy - urcite mne, ale asi i autorovi), je cela diskuse nad rychlosti atp. relativne bezpredmetna - chtelo by to nejakou solidni teorii, ktera by o takto vzniklych maticich dokazala zakladni predpokady pro pouziti iteracnich metod, aby bylo mozno pouzit ty opravdu nejrychlejsi a predikovat tak rychlost konvergence.
    Existuje?
    Mozna ze ano, mozna ze by bylo zajimave o tom neco napsat.

    Fakt je, ze empiricke poznatky jsou takove, ze ve vetsine pripadu to funguje pekne a tak se to pouziva, i kdyz podminky metod neni mozne zarucit - coz je ostatne relativne obvykly postup v praxi numericke matematiky.
  • 22. 12. 2000 13:56

    Artur Linhart (neregistrovaný)
    Tedy - mam na mysli metody pro vypocet PageRanku, coz by mozna nemuselo byt z meho prizpevku uplne jasne...
  • 22. 12. 2000 14:58

    Michal Illich (neregistrovaný)
    Je dokazano, ze rovnice pouzivana PageRankem konverguje, pokud je graf silne propojeny (existuje cesta z kazdeho uzlu do kterehokoliv jineho). Tato podminka neni u www splnena, ale ve stredu webu existuje velka silne propojena komponenta, takze to nevadi.

    Otazka na pocet iteraci je spravna. Vemte to takto: Po prvni iteraci mame stejny vysledek, jako bychom pocitali pocet odkazu, ktere na danou stranku smeruji. To samo o sobe je docela uzitecna informace. Po druhe iteraci bude vysledek znatelne lepsi. Po 3-4 uz mate neco, co vykazuje vsechny charakteristiky PageRanku. Google tusim udaval kdysi 20 iteraci, ted (se zvetsujicim se indexem) bude asi pouzivat min.
  • 27. 12. 2000 19:15

    Artur Linhart (neregistrovaný)
    Diky za informaci. Neni mi ale jasne, jak se vybiraji ty "silne propojene" body (pokud se vubec vybiraji), aby byla konvergence zarucena - domnivam se, ze se nevybiraji (jak by se pak mohlo vyhledavat na vsech strankach, kdyby u nejakych chybel PageRank, ze...), ale diky tomu, ze cele reseni zaplatpanbuh nevykazuje znaky nestability (doslova - to tezko asi nekdo jiny ovlivni 8^)), neprojevuji se chyby nejakymi drastickymi divergencemi. Je to asi zpusobeno tim, ze ty uzly, ktere maji ve vypoctu vetsi vahu jsou prave ty "vice propojene", ktere zarucuju "zestabilnovani" metody... Je to krasne, jak ta priroda funguje!!!
  • 27. 12. 2000 22:01

    Michal Illich (neregistrovaný)
    Presne tak, v silne propojene casti grafu jsou vyssi PageRanky, ty pak ovlivnuji zbytek grafu. Ty uzly (stranky), z kterych nevedou zadne odkazy ven, pusobi ale trochu problem - u Googleu tomu rikaji "rank sink" (neco jako vylevka) a optimalizuji algoritmus tak, ze tyto stranky pri prvnim vypoctu z grafu uplne vyhodi.
    Nicmene, kdyz tuto optimalizaci neprovedete, nic hrozneho se nestane, akorat nemate zajistenou konvergenci...
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).