Chtěl bych touto cestou vyjádřit omluvu uživatelům ftxt.quick.cz za chybné zobrazení odkazů sama na sebe. Při rekonfiguraci robota (tj. části, jež stahuje obsah stránek z web serverů) jsme omylem vypustili definici zamezující cyklickému přístupu sama na sebe.
Chybu jsme neprodleně opravili a v brzké době bude k dispozici katalog stránek sestavený dle upravené konfigurace.
Ftxt.quick.cz využívá technologie Megatext. Unikátní vlastností je možnost vyhledávat česká ohýbaná slova ve všech jejich morfologických tvarech. Databáze, jež je pravidelně kompletně obnovována každé dva týdny, obsahuje 5 miliónů webových stránek s celkovým počtem 1,5 miliardy slov.
Radek Doležel
ČESKÝ TELECOM, a. s. - Imaginet, o. z.
Internet Content Group
Nejsem si tím docela jistý, ale řekl bych, že skloňovat a časovat, stupňovat a negovat by měl umět i WebSeek. K čemu jinému by jinak využíval iSpell. Ovšem je pravda, že poslední iSpell, který jsem viděl, obsahoval jen asi 190.000 hesel. Je to sice více, než kolik obsahuje Slovník spisovné češtiny, Slovník spisovného jazyka českého nebo Pravidla pravopisu, ale i tak je to velmi málo. Chtělo by to, aby opensource komunita zapracovala, třeba by pro ten účel dostala svolení využít i Český národní korpus, mohla by to být třeba zajímavá ročníková či diplomová práce pro někoho z komputační lingvistiky třeba na MFF UK. Co říkáte.
To taky, ale quick.cz opravdu ignoruje robots.txt, proto jsem na svůj web zakázal přístup z 194.228.200.8. Robot Megatextu neobtěžuje tak často, zatím jsem ho nechal být.
Je zajímavé, že se čeští roboti zpravidla nesnaží stahovat stránku v různých kódováních češtiny - autoři si dají tu práci s implementováním pravidel pro vyloučení URL s /toISO-8859-2/ apod., ale dodržovat všeobecně uznávaný Robots Exclusion Protocol je nad jejich síly.