dekuji za rychlou reakci a konstatuji, ze se Vase analyza skutecne v nekterych vecech vzdaluje skutecnemu reseni; domnivam se, ze je to vsak skutecne zpusobeno tim, ze vidite nas system pouze zvenku. Radi s Vami nektere aspekty osobne prodiskutujeme (obavam se vsak, ze to bude nad ramec komentare k clanku :)), procez Vas prosim o kontaktovani prostrednictvim e-mailu (karel.panek@empyreum.cz), nejlepe jeste behem dnesniho dne (s ohledem na moje casove moznosti).
Nedostatecne zohlednuje delku dokumentu vuci frekvenci slov dokumentu, tj. nepenalizuje "kratke" dokumenty. Zohledneni slov v linku (slova na ktera se klika) je nedostatecne, stejne tak jako analyza dalsi stylistiky HTML stranky. Take se domnivam, ze thesaurus a lemmatizer nepracuji zcela dokonale, a spise v linqui asi vyuzivate neco jako n-gramy.
Nezohlednuje vzajemne reference a neimplementuje pravdepodobne zadne techniky vzajemne reference indexovanych dokumentu, alespon na zakladni urovni indukcniho modelu. Spatne to pak napr. analyzuje content pages od information pages. Dale se domnivam, ze to prilis preferuje vyskyty, pouhych paternu puvodnich termu (asi souvislost s n-gramovou technikou nekde uvnitr stroje).
Tolik po zbeznem testovani. Na dalsi bych to potreboval projet proti TREC a dale slovnat na C3 clusterovani v ramci vetsi baze nejenom s "rozumnymi" texty.
Moje analyza odpovida cene, za kterou ji porizuji :-). Netvrdim, ze zminovany produkt nema hodnotu, spise jsem se snazil najit mista, ktera je jeste mozno dle meho skromneho nazoru zlepsit... Berte to prosim pouze jako feedback, ktery je mozna kriticky, ale je minen v "dobrem", a rozhodne nemusi byt vzdy 100% vystizny a presny (tj. muze byt mylny).
Pochopitelne by mi pomohlo, kdybych znal konstrukci a modely, na kterych to bezi. Rychleji bych se dokazal zamerit na odpovidajici mista. :-)
Tento "novy" produkt jsem si otestoval, a musim konstatovat, ze se jedna zatim o to nejhorsi co jsem v TLD cz vubec videl, hned za takovymi kvalitami jako atlas, centrum a seznam.
Relevanci to totiz stanovuje dle meho nazoru velice nestastne a osobne se domnivam, ze jde o dalsi produkt, jehoz autori si neco malo precetli o nejakem vyhledavacim modelu, ale vubec nemeli zkusenosti nebo teoreticke zaklady ke zpracovani radove milionu dokumentu.
Proto opet nezbyva, nez k hledani v CZ zone vyuzit vyhradne zahranicni PROFESIONALNI systemy. Bohuzel je tu pak problem aktualnosti dat, ale aspon clovek najde co potrebuje mezi prvnimi 20-ti hity...