S češtinou to ale ani ti nejzručnější programátoři asi daleko nedotáhnou
Ja bych byl s takhle kategorickymi formulacemi opatrnejsi.
Prilis mi to pripomina volani po zruseni patentoveho uradu (nekdy pred 100 lety), protoze vsechno jiz prece bylo vynalezeno a nic noveho nelze objevit ;-)
Musím Vám tvrdě oporovat, na Masarykově univerzitě, fakulta informatiky, se tímto a podobným zabývají již mnoho let, tuším pod vedením docenta Paly. Informace, že došli k milionu a vzdali to, zní jako ze stránek Blesku !
U toho Amazonu se to da dokonce velmi krásně extrapolovat, prostě líbí-li se Vám například určité kapely (určitý žánr), přidejte si je do košíku a Amazon Vám nabídne tituly, o kterých jste třeba dosud vůbec netušili a jsou přesně dle Vašeho gusta. Tímto způsobem jsem "objevil" už několik skvělých kapel!
> Pokud vím, když čeští jazykovědci sestavovali Tezarus (slovník všech slov ve všech tvarech atd.), došli k miliónu výrazů a pak to vzdali.
Tezaurus je neco vic nez "slovnik vsech slov ve vsech tvarech". U tezauru jde o hledani synonym.
Co se tyka tech milionu tvaru, tak Jyxo jich nyni zna 4.5 milionu...
Jde tu o dva kroky - nejdriv vyhledavac naucit slova a jejich tvary, a pak jej jeste muzete naucit synonyma. Podle meho nazoru je ten prvni krok velmi dulezity, ten druhy uz mene.
To je pravda, moje babicka vyraz "devka" pouziva dodnes, velmi mne iritovalo, ze takhle mluvi o me slecne (nyni manzelce) a vysvetloval jsem ji, ze nechci poslouchat, ze "jsem nekde byl s devkou". A ona presne pokazde argumentuje s tim, ze se to u nich tak vzdycky rikavalo a ze tim nic spatneho nemysli. Nicmene uz to nerika :-)
Zatím jde opravdu jen o dělení do kategorií, doufám však, že jednoho dne se vyhledávací služby dostanou tak daleko, že postačí napsat třeba "životopis XY" ale místo tisíců odkazů na fotogalerie, informace o XY na ostatních serverech, nebo stránky fanoušků, se objeví jeden jediný odkaz, pod kterým najdete jednu jedinou stránku, na které bude přesně to, co hledáte. Třeba to nebyl dobrý případ, zkrátka a jasně, pro vyhledání na internetu nestačí najít stránku, která obsahuje klíčová slova. Slova mají určitý význam a ten, když vyhledávač pochopí, může bezchybně určit, o čem text doopravdy je. Jak jsem již ale psal, zejména, co se týče češtiny, se jedná o záležitost daleké budoucnosti.
Mylite se co do predstav o zpracovani textu i ohledne zpracovani cestiny. Tady jde o "obarveni" fragmentu spravnou "kategorii", nikoliv inteligentni pochopeni oc v textu jde. To je velky rozdil.
Na druhou strnau je fakt, ze Google touhle akvizici jen vylepsuje svuj obraz. Jinak ma "neurcite" problemy s technologii (obcas vypadavaji casti indexu), a jeho konkurenti mu vyrazne slapou na paty jak technologicky tak obchodne. Tim se mu hrouti obchodni model a jednoduse musi "neco udelat". Tak koupil "neco". To je cele. Nic vic a nic min. Takovych pripadu jsou tisice...
Dokáži si představit fungování systému na rozpoznávání textů např. v angličtině. S češtinou to ale ani ti nejzručnější programátoři asi daleko nedotáhnou, protože ani ten nejzákladnější předpoklad pro kvalitní fungování takovéhleho systému - databáze všech slov - zjevně chybí a dlouho chybět bude. Pokud vím, když čeští jazykovědci sestavovali Tezarus (slovník všech slov ve všech tvarech atd.), došli k miliónu výrazů a pak to vzdali. Navíc variabilita slovosledu je také IMHO na docela slušné úrovni, takže i ty nejrychlejší stroje budou "louskat" jednu stránku textu dlouhé hodiny. Teď je otázka, jestli za pár let budeme pro vyhledávání na internetu používat ještě současné metody, nebo budou všechny texty globálně v anglickém jazyce, aby se v tom vyhledávače vyznaly ;-)
BFU napíše: hledám zemědělce, co vozí japka v jaguáru.
Jinak, blbost nemá s inteligencí a inteligence se vzděláním mnoho společného. Znám několik nesmírně inteligentních blbců, blbců s titulem, inteligentních lidí bez vzdělání ... a abych nebyl úplně nespravedlivý, tak i inteligentních vzdělanců.
Ale vždyť tohle už se děje. Díval jsem se na stránky té firmy a je tam nějaký program pro CRM. To si vážně myslíte, že vám v knihkupectví pokaždé nabízejí na domovské straně haiku jen kvůli tomu, že je tak oblíbené a jde na dračku? Já mám kolikrát potíže vůbec se vymotat z počítačové literatury, abych si koupil něco jiného. Dokonce jsem kvůli tomu začal chodit víc do Kosmase než na Vltavu.
Ale myslím, že v Google jsou celkem rozumné dámy a panové a přiřadí osobním profilům jen nízkou váhu. Ono totiž i ve Spokojených státech používá doma stále ještě dost rodin jen jednouživatelský operační systém.
Obavam se, ze pred padesati lety "devka" byla devkou. Alespon moje osmdesatileta babicka s timhle problem nema. Podle vseho, ta "devka Pane" se vyskytuje v kralickem prekladu z roku 1613. Chtit po nejakem automatu, aby se vyporadaval s texty 400 let starymi je trosku moc, ne?
Jenže známe BFUs, kteří neklikají kam nemusí, takže mu to bude házet něco jiného než co chce.
Navíc sémantika je dosti obtížná věda (dělal jsem na ni bakalářskou práci :-)). Význam slov může být často posunut - a to jak u lidí, tak v čase.
Např. včera jsem bavil s jednou dívkou, jaké má požadavky na partnera. Řekla mi, že nesmí být "blbý". Pochopil jsem to tak, že by měl být "inteligentní". Až po chvíli jsem z ní dostal, že tím myslí "Ale blbej jako tak, že je třeba šíleně nafoukanej a neumí se chovat k lidem a vážit si jich. Sobec a tak. Se vzděláním to nemá nic společnýho."
Takže při hledání v novém super-Googlu na dotaz "chlap", "není blbej", by ji podle mne vycházeli chlapi s IQ nad 100, ale třeba necharakterní a sobci. Tedy něco jiného, než by ona chtěla.
Jiný příklad. Ještě před 50 lety se používalo slovo "děvka" jako "dívka". Panna Maria tak po zvěstování v bibli praví: "Ejhle, a já děvka Páně." Člověk, který by hledal tuto frázi přes např. "děvka", "panna", "bible", by se mohl octnout na stránkách pochybného slickového časopisu, kde by byl článek o tom, jak se z upnuté panny, co pravidelně četla bibli, stala odvázaná děvka. :-)
No, rozhodně pro češtinu tohle řešení ještě hodně dlouho nebude. :-)
No, da se cekat, ze pokud nekdo bude chtit najit neco o zemedelci, co prevazi jabka v jaguaru, tak bud pripise mezi hledane klicove slova "zemedelec" nebo neco podobneho, nebo tuhle featurku vypne ... :O)
Pochopení smyslu textu a následné "odhadnutí" smyslu dotazu jistě může pomoci pro řadu vyhledávání. Mohlo by to však vést k tomu, že bych nenalezl stránky o (hypotetickém) svérázném zemědělci, který sklizená jablka převáží v nejnovějším modelu Jaguáru.
Vyhledávač bude vybaven "inteligencí" superpovrchního zasvěcence ve všech oblastech života. Pro běžného uživatele nebude jistě snadné odhadnout, jaké zúžení smyslu dotazu vyhledávač použije, a může se domnívat, že to, co hledá, prostě neexistuje.
Ale uvažujme dál: Prohledávač si navíc může budovat profil uživatele. Člověk, který se zajímá hodně o počítače, bude (může) postupem času stále více dostávat výsledky jen z tohoto odboru. Prohledávač pro něj vlastně vytvoří virtuální svět, který se zajímá převážně o počítače.
A když si ještě představím možnost externí parametrizace profilu a "pečující" státní aparát k tomu...