Zdá se, že se o tyto algoritmy zajímáte, proto bych vám položil otázku, která mi vrtá hlavou už delší dobu. Pokud přijmu názor, že hledač by měl "vidět" stránky (resp. obecně objekty) na internetu pokud možno stejně jako člověk, protože člověku pak své výsledky předkládá - pak by stálo za úvahu použít techniky vytvořené pro posuzování komplexních jevů, nikoli jednoduché algoritmy. Nevíte o tom, že by se někde například experimentovalo s využitím neuronové sítě? Když je možné nasypat do sítě pár tisíc (řekněme) infračervených fotografií a pak ta síť dokáže interpretovat význam dalších samostatně, proč by to nešlo využít na analýzu stránek?
Popřípadě clusterová analýza, která je schopna po nakrmení popsanými vzorky diagnostikovat onemocnění, mohla by možná také dokázat hodnotit obsah webu.
Ale nejsem statistik, možná je to blbost. Jen mne zajímá, jestli někdo neví o podobných experimentech.
Nemohu si dovolit kompletní rozbor dané problematiky. Podle informací na které jsem zatím narazil je zpracování za pomoci neuronové sítě jednou z dalších možností výzkumu.
Co se týká clusterové analýzy, tak ta údajně nedávala dobré výsledky a k tomuto rozpoznávání není vhodná.
Myslím si, že rozpoznávání stránek za pomoci neuronových sítí by mohlo být dalším krokem ke zlepšování hodnotících algoritmů.
zajímalo by mě, jak poznají co je vlevo, co nahoře a co vpravo. U správně utvořených webů musí ještě načíst (několik) CSS, navíc u mnohých co skin to kompletně jiný vzhled.
Na druhou stranu stránky vytvořené přes CSS využívají bloky nativně tak, že není třeba žádná analýza vzhledu, bloky jsou rozdělené DIVy, takže stačí separátní analýza DIVů. Tím by se celý algoritmus mohl i urychlit a zjednodušit. Samozřejmě by to nic nepřineslo u prasečích tabulkových layoutů, když by to ale zavedl třeba google a vylepšovalo by to pagerank, tak by to byl myslím velmi silný důvod proč by i mnohé dnes prasečí weby přešly na semantickou strukturu.
Normálně si to vyrenderujou v jádru MSIE podle implicitního stylu a vyměřej si hranice bloků podle toho, co jim vrátí metody DHTML. :-) Úplně největší legrace jsou takové ty pokusy zjišťovat důležitost odkazu podle toho, jak daleko leží od středu první obrazovky. Význam odkazu se tak může změnit prostě už tím, že se posune ten střed (to jako, že se začne renderovat do většího rozlišení ;-)).
Mimochodem, Milane, díky, skvěle převyprávěné. Některé věci jsou mi teď jasnější.
Docela mě to bavilo číst, ale vyhnil jsem na větě "Podobně vytvoříme také matici X vztahů stránka-blok." V tu chvíli už bych si musel začít dělat poznámky, abych nezapomněl, co která proměnná znamená.
Jestli tomu dobře rozumím, tak prostě zobecňuješ výpočet PageRanku a jiných ranků na nižší jednotky než stránky. A zavádíš takovou normalizaci, aby výsledný vektor stále konvergoval. Je to tak, nebo je ta myšlenka hlubší?
Toho jsem se trochu bál. Pokud jsem ale chtěl laicky trochu priblizit cely system fungovani, zvolil jsem radeji slovni vyjadreni. Myslim si, ze kdybych vybalil hromadku vzorcu, ktere jsou v technické zprávě (odkazovane v souvisejicich clancich dole), tak by to natropilo jeste vice problemu.