Dokáži si představit fungování systému na rozpoznávání textů např. v angličtině. S češtinou to ale ani ti nejzručnější programátoři asi daleko nedotáhnou, protože ani ten nejzákladnější předpoklad pro kvalitní fungování takovéhleho systému - databáze všech slov - zjevně chybí a dlouho chybět bude. Pokud vím, když čeští jazykovědci sestavovali Tezarus (slovník všech slov ve všech tvarech atd.), došli k miliónu výrazů a pak to vzdali. Navíc variabilita slovosledu je také IMHO na docela slušné úrovni, takže i ty nejrychlejší stroje budou "louskat" jednu stránku textu dlouhé hodiny. Teď je otázka, jestli za pár let budeme pro vyhledávání na internetu používat ještě současné metody, nebo budou všechny texty globálně v anglickém jazyce, aby se v tom vyhledávače vyznaly ;-)
Mylite se co do predstav o zpracovani textu i ohledne zpracovani cestiny. Tady jde o "obarveni" fragmentu spravnou "kategorii", nikoliv inteligentni pochopeni oc v textu jde. To je velky rozdil.
Na druhou strnau je fakt, ze Google touhle akvizici jen vylepsuje svuj obraz. Jinak ma "neurcite" problemy s technologii (obcas vypadavaji casti indexu), a jeho konkurenti mu vyrazne slapou na paty jak technologicky tak obchodne. Tim se mu hrouti obchodni model a jednoduse musi "neco udelat". Tak koupil "neco". To je cele. Nic vic a nic min. Takovych pripadu jsou tisice...
Zatím jde opravdu jen o dělení do kategorií, doufám však, že jednoho dne se vyhledávací služby dostanou tak daleko, že postačí napsat třeba "životopis XY" ale místo tisíců odkazů na fotogalerie, informace o XY na ostatních serverech, nebo stránky fanoušků, se objeví jeden jediný odkaz, pod kterým najdete jednu jedinou stránku, na které bude přesně to, co hledáte. Třeba to nebyl dobrý případ, zkrátka a jasně, pro vyhledání na internetu nestačí najít stránku, která obsahuje klíčová slova. Slova mají určitý význam a ten, když vyhledávač pochopí, může bezchybně určit, o čem text doopravdy je. Jak jsem již ale psal, zejména, co se týče češtiny, se jedná o záležitost daleké budoucnosti.
> Pokud vím, když čeští jazykovědci sestavovali Tezarus (slovník všech slov ve všech tvarech atd.), došli k miliónu výrazů a pak to vzdali.
Tezaurus je neco vic nez "slovnik vsech slov ve vsech tvarech". U tezauru jde o hledani synonym.
Co se tyka tech milionu tvaru, tak Jyxo jich nyni zna 4.5 milionu...
Jde tu o dva kroky - nejdriv vyhledavac naucit slova a jejich tvary, a pak jej jeste muzete naucit synonyma. Podle meho nazoru je ten prvni krok velmi dulezity, ten druhy uz mene.
Musím Vám tvrdě oporovat, na Masarykově univerzitě, fakulta informatiky, se tímto a podobným zabývají již mnoho let, tuším pod vedením docenta Paly. Informace, že došli k milionu a vzdali to, zní jako ze stránek Blesku !
S češtinou to ale ani ti nejzručnější programátoři asi daleko nedotáhnou
Ja bych byl s takhle kategorickymi formulacemi opatrnejsi.
Prilis mi to pripomina volani po zruseni patentoveho uradu (nekdy pred 100 lety), protoze vsechno jiz prece bylo vynalezeno a nic noveho nelze objevit ;-)