Pochopení smyslu textu a následné "odhadnutí" smyslu dotazu jistě může pomoci pro řadu vyhledávání. Mohlo by to však vést k tomu, že bych nenalezl stránky o (hypotetickém) svérázném zemědělci, který sklizená jablka převáží v nejnovějším modelu Jaguáru.
Vyhledávač bude vybaven "inteligencí" superpovrchního zasvěcence ve všech oblastech života. Pro běžného uživatele nebude jistě snadné odhadnout, jaké zúžení smyslu dotazu vyhledávač použije, a může se domnívat, že to, co hledá, prostě neexistuje.
Ale uvažujme dál: Prohledávač si navíc může budovat profil uživatele. Člověk, který se zajímá hodně o počítače, bude (může) postupem času stále více dostávat výsledky jen z tohoto odboru. Prohledávač pro něj vlastně vytvoří virtuální svět, který se zajímá převážně o počítače.
A když si ještě představím možnost externí parametrizace profilu a "pečující" státní aparát k tomu...
No, da se cekat, ze pokud nekdo bude chtit najit neco o zemedelci, co prevazi jabka v jaguaru, tak bud pripise mezi hledane klicove slova "zemedelec" nebo neco podobneho, nebo tuhle featurku vypne ... :O)
Jenže známe BFUs, kteří neklikají kam nemusí, takže mu to bude házet něco jiného než co chce.
Navíc sémantika je dosti obtížná věda (dělal jsem na ni bakalářskou práci :-)). Význam slov může být často posunut - a to jak u lidí, tak v čase.
Např. včera jsem bavil s jednou dívkou, jaké má požadavky na partnera. Řekla mi, že nesmí být "blbý". Pochopil jsem to tak, že by měl být "inteligentní". Až po chvíli jsem z ní dostal, že tím myslí "Ale blbej jako tak, že je třeba šíleně nafoukanej a neumí se chovat k lidem a vážit si jich. Sobec a tak. Se vzděláním to nemá nic společnýho."
Takže při hledání v novém super-Googlu na dotaz "chlap", "není blbej", by ji podle mne vycházeli chlapi s IQ nad 100, ale třeba necharakterní a sobci. Tedy něco jiného, než by ona chtěla.
Jiný příklad. Ještě před 50 lety se používalo slovo "děvka" jako "dívka". Panna Maria tak po zvěstování v bibli praví: "Ejhle, a já děvka Páně." Člověk, který by hledal tuto frázi přes např. "děvka", "panna", "bible", by se mohl octnout na stránkách pochybného slickového časopisu, kde by byl článek o tom, jak se z upnuté panny, co pravidelně četla bibli, stala odvázaná děvka. :-)
No, rozhodně pro češtinu tohle řešení ještě hodně dlouho nebude. :-)
Obavam se, ze pred padesati lety "devka" byla devkou. Alespon moje osmdesatileta babicka s timhle problem nema. Podle vseho, ta "devka Pane" se vyskytuje v kralickem prekladu z roku 1613. Chtit po nejakem automatu, aby se vyporadaval s texty 400 let starymi je trosku moc, ne?
BFU napíše: hledám zemědělce, co vozí japka v jaguáru.
Jinak, blbost nemá s inteligencí a inteligence se vzděláním mnoho společného. Znám několik nesmírně inteligentních blbců, blbců s titulem, inteligentních lidí bez vzdělání ... a abych nebyl úplně nespravedlivý, tak i inteligentních vzdělanců.
To je pravda, moje babicka vyraz "devka" pouziva dodnes, velmi mne iritovalo, ze takhle mluvi o me slecne (nyni manzelce) a vysvetloval jsem ji, ze nechci poslouchat, ze "jsem nekde byl s devkou". A ona presne pokazde argumentuje s tim, ze se to u nich tak vzdycky rikavalo a ze tim nic spatneho nemysli. Nicmene uz to nerika :-)
Ale vždyť tohle už se děje. Díval jsem se na stránky té firmy a je tam nějaký program pro CRM. To si vážně myslíte, že vám v knihkupectví pokaždé nabízejí na domovské straně haiku jen kvůli tomu, že je tak oblíbené a jde na dračku? Já mám kolikrát potíže vůbec se vymotat z počítačové literatury, abych si koupil něco jiného. Dokonce jsem kvůli tomu začal chodit víc do Kosmase než na Vltavu.
Ale myslím, že v Google jsou celkem rozumné dámy a panové a přiřadí osobním profilům jen nízkou váhu. Ono totiž i ve Spokojených státech používá doma stále ještě dost rodin jen jednouživatelský operační systém.
U toho Amazonu se to da dokonce velmi krásně extrapolovat, prostě líbí-li se Vám například určité kapely (určitý žánr), přidejte si je do košíku a Amazon Vám nabídne tituly, o kterých jste třeba dosud vůbec netušili a jsou přesně dle Vašeho gusta. Tímto způsobem jsem "objevil" už několik skvělých kapel!
Dokáži si představit fungování systému na rozpoznávání textů např. v angličtině. S češtinou to ale ani ti nejzručnější programátoři asi daleko nedotáhnou, protože ani ten nejzákladnější předpoklad pro kvalitní fungování takovéhleho systému - databáze všech slov - zjevně chybí a dlouho chybět bude. Pokud vím, když čeští jazykovědci sestavovali Tezarus (slovník všech slov ve všech tvarech atd.), došli k miliónu výrazů a pak to vzdali. Navíc variabilita slovosledu je také IMHO na docela slušné úrovni, takže i ty nejrychlejší stroje budou "louskat" jednu stránku textu dlouhé hodiny. Teď je otázka, jestli za pár let budeme pro vyhledávání na internetu používat ještě současné metody, nebo budou všechny texty globálně v anglickém jazyce, aby se v tom vyhledávače vyznaly ;-)
Mylite se co do predstav o zpracovani textu i ohledne zpracovani cestiny. Tady jde o "obarveni" fragmentu spravnou "kategorii", nikoliv inteligentni pochopeni oc v textu jde. To je velky rozdil.
Na druhou strnau je fakt, ze Google touhle akvizici jen vylepsuje svuj obraz. Jinak ma "neurcite" problemy s technologii (obcas vypadavaji casti indexu), a jeho konkurenti mu vyrazne slapou na paty jak technologicky tak obchodne. Tim se mu hrouti obchodni model a jednoduse musi "neco udelat". Tak koupil "neco". To je cele. Nic vic a nic min. Takovych pripadu jsou tisice...
Zatím jde opravdu jen o dělení do kategorií, doufám však, že jednoho dne se vyhledávací služby dostanou tak daleko, že postačí napsat třeba "životopis XY" ale místo tisíců odkazů na fotogalerie, informace o XY na ostatních serverech, nebo stránky fanoušků, se objeví jeden jediný odkaz, pod kterým najdete jednu jedinou stránku, na které bude přesně to, co hledáte. Třeba to nebyl dobrý případ, zkrátka a jasně, pro vyhledání na internetu nestačí najít stránku, která obsahuje klíčová slova. Slova mají určitý význam a ten, když vyhledávač pochopí, může bezchybně určit, o čem text doopravdy je. Jak jsem již ale psal, zejména, co se týče češtiny, se jedná o záležitost daleké budoucnosti.
> Pokud vím, když čeští jazykovědci sestavovali Tezarus (slovník všech slov ve všech tvarech atd.), došli k miliónu výrazů a pak to vzdali.
Tezaurus je neco vic nez "slovnik vsech slov ve vsech tvarech". U tezauru jde o hledani synonym.
Co se tyka tech milionu tvaru, tak Jyxo jich nyni zna 4.5 milionu...
Jde tu o dva kroky - nejdriv vyhledavac naucit slova a jejich tvary, a pak jej jeste muzete naucit synonyma. Podle meho nazoru je ten prvni krok velmi dulezity, ten druhy uz mene.
Musím Vám tvrdě oporovat, na Masarykově univerzitě, fakulta informatiky, se tímto a podobným zabývají již mnoho let, tuším pod vedením docenta Paly. Informace, že došli k milionu a vzdali to, zní jako ze stránek Blesku !
S češtinou to ale ani ti nejzručnější programátoři asi daleko nedotáhnou
Ja bych byl s takhle kategorickymi formulacemi opatrnejsi.
Prilis mi to pripomina volani po zruseni patentoveho uradu (nekdy pred 100 lety), protoze vsechno jiz prece bylo vynalezeno a nic noveho nelze objevit ;-)