Souhlasim, ono by neskodilo o PageRanku uvest jeste spoustu dalsich veci (uz tak jsem to lehce zjednodusil). Text, ktery by jen toto tema plne rozebiral, by byl tak na tri "Lupi" clanky...
Ale nebojte, v pristim dilu se k citacni analyze jeste vratime, dokonce uvedu jeste lepsi algoritmus.
Dovoluji si doporucit napriklad semanticke stromy od Verity a dalsi umele Ynteligentni technologie (neuronove a bayesovske site...).
Nicmene hlavni trend vyhledavacu vidim v presnosti - na Intenetu se da najit vse a to ve spouste zdroju. Presnost tedy jako obrana proti informacnimu zahlceni velmi kriticka. Bohuzel soucasne vyhledavace se orientuji spise na uplnost :-( .
Takze doporucuji se zamerit na vyhledavaci stroje s automatickym profilovanim uzivatelu - ty mohou zjistit, ze pod pojmem 'sit' minim ethernet a ne neco na chytani ryb ;-).
No ale abych jen nepindal - www.autonomy.com - _velmi_ fikany kontextove orientovany vyhledavaci engine s profilovanim uzivatelu...
Citační analýza, jaká se používá např při tvoření citačních indexů podle kteých se hodnotí publikované práce není založena jen na statistice, že někdo něco otisklk a někdo jiný to citoval: roli hraje publikace v renomovaných časopisech,které mají editory, kteří jsou ve svém oboru uznávání, opírá se tady také o autoritu , která ve vědecké komunitě platí. Pro toho, kdo tuto autritu uznává je to tedy do určité míry výpověď o hodnotě obsahu práce. Tady ale jde ale čistě statistický ohlas. Informace tohoto druhu je užitečná pro tvůrce stránek z obchodního hlediska a pro uživatele, kteří hledají orientaci v tom, co v dané oblasti zrovna letí. Je to takový začarovaný kruh, protože tvůci stránek se snaží dosáhnout vysoké známosti a tou se zase řídí uživatelé. Je to jako anketa o zlatého slavíka - zpěvák je populární protože je populární. Pokud hledám specifikou informaci v oblasti, kde se trochu vyznám, je mi tenhle druh informace k ničemu. Pomůže spíš promyšlená fromulace dotazů pomocí fulltextového vyhledače s Booleovským vyhledáváním. Tak mám šanci najít infromace, které jsou skutečně obsahově relevantní a důvěryhodné. Tohle je myslím ohromná vymoženost a na rozdíl od spoléhání se na to, že mu statistická kriteria přihrají ty správné stránky tu nehrozí to, že internet své uživatele dovede k zblbnutí jeko to dělá televize - používáte vlastní hlavu.
No slava! Konecne nekdo uvedl, ze Page Rank neresi vsechno. Jeden priklad za vsechny. Kdyz jsem sveho casu instaloval Sendmail (ale muze to byt cokoli jineho), mel jsem k dispozici obvykle texty manualu, na strankach firmy Sendmail je houstina - rovnez manualovych - popisu.
V ten moment by mi byl mily prehledny "lidsky" popis instalace vcetne zakladnich konfiguraci - neco jako reportaz z instalace. Google ji jednoduchym dotazem nedoda (mozna nekde vzadu). S pouzitim AND OR NOT atd. jsem se propracoval na takovou reportaz nejakeho Japonce. A vsechno bylo hned jasne. To se tyka hledani informaci z jakehokoli oboru ci kategorie lidskych cinnosti.
Page Rank je dobry pro stranky, ktere si vyslouzily zajem odkazy odjinud. Ale chudinky stranecky, ktere "nikdo nema rad" a jsou velmi dobre, Page Rank nevytahne ze tmy. Page Rank bych (i kdyz to neni presne ono) prirovnal ke kamenikum, kteri prezentuji malou cast hudby jejim mlacenim do hlav lidi vsemi kanaly. Lidi se tak odkazuji na jejich cedecka. Jenze na svete jsou mnohem vetsi kvanta perfektni hudby, kterou drtiva vetsina lidi nezna. (Skoro bych Googlu navrhl, aby umoznil zadani "Page Rank = 0" pro vytazeni "nepopularnich" stranek:)
Na Googlu je skvela jedna vec, kterou nikdo nezminil - slucovani stranek ze stejneho zdroje, takze je vypis prehlednejsi (nemusi se poskakovat po spouste vypisu, resp. zadavat vylucovaci NOT). I ono "More pages from..." je parada (stejne tak "Similar Pages" a "Cached").
Krome toho je Google dobry v tom, ze vytahuje i texty z databazi (neignoruje "?" v URL), coz zdaleka vsichni necini, a pokud to cini, ne v takove mire. Well...that's all.