Ja bych se te vize trochu zastal. Netvrdim ze je dokonala a spravna, a taky si nejsem jist jestli zrovna za deset let, ale verim ze je proveditelna a ze muze byt produktivni. A stejne si myslim ze tato technologie pujde v ruku v ruce s gesty a dotykovyma mobilnim resenim aby clovek nemusel v autobuse vest monology.
V dnesni dobe si hlasove ovladani pocitace predstavujeme trochu jako hlasove ovladani mysi a klavesnice. To je ovsem asi zasadni chyba, kterou v nas umocnuje hlasove ovladani Windows Vista. Predstavme si to ovsem spise jako plynuly a prirozeny rozhovor typu "Pocitaci tamhle v druhem odstavci nahore vidim slovo lupa.cz, podtrhni ho". Pravda, mysi by to clovek udelal mozna trochu rychleji, ale co treba "Najdi mi fotografie autora tohoto clanku a serad je chronologicky" To uz neni tak trivialni ukol a vyzaduje premysleni a mnoho kliknuti a pokusu hledani na ruznych zdrojich. A v tom bude ta prava vyhoda hlasoveho ovladani. Clovek nebude muset premyslet jak to udelat, ale jen vyjadri potrebu a zamer. To samozrejme zmeni i celou koncepci software.
no sláva, konečně někdo inteligentní s trochou představivosti.
Já bych nějaké intuitivní ovládání taky velmi uvítal a měl bych spoustu příkladů, kdy by to bylo rychlejší než myš a klávesnice.
Jsem grafik, mám k ruce kompletní mnohaletý archiv (tištěný a elektronický) jedněch novin, které jsem dělal. No, a teď jsem zrovna potřeboval najít nějaké oznámení, které jsem dělal zhruba před rokem. Nepamatuju si text, nepamatuju si datum, ale "vidím", jak to oznámení vypadalo a kde na stránce bylo. Jak byste ho asi hledali pomocí myši a klávesnice? Jak byste strukturovali dotazi pro fulltext?
Musím říct, že já jsem nejdřív sáhnul po elektronickém archivu, ale současně jsem říkal kolegovi, co hledám (bylo to takové žluté oznámení, někde vpravo dole, v zelené části novin). On si vzal tištěný archiv a za půl minuty mi ukazoval stránku "Je to ono?". Byl mnohem rychlejší než já v elektronické verzi a to jsem věděl, co hledám, zatímco on měl jen vágní popis.
Tak tohle hlasové (radši bych mu říkal intuitivní, protože bych tam klidně cpal vstup i klávesnicí) ovládání bych si představit dokázal a velmi bych ho chtěl. A vidím ho velmi reálné, pokud se ještě zvýší výkon běžného desktopu.
No tohle znám z vyhledávání v knihách, prostým listováním lze najít věci jen podle toho, že si člověk velmi vágně pamatuje, kde to asi tak bylo a jak to asi tak vypadalo. V PDF verzi naprosto nenapodobitelná schopnost.
Navíc při hledání třeba ve slovníku nebo encyklopedii funguje i nějaký třetí smysl či co a člověk knihu otevře přesně na potřebné stránce tak nějak intuitivně.
Jenže tohle už s rozpoznáváním hlasu vůbec nesouvisí. Rozvinout je potřeba především umělou inteligenci a pochopení mozku. A tam jde sice pokrok rychle dopředu, ale jsme pořád na úplném začátku, otázka deseti let to rozhodně není.
Jenže Ballmer mluví právě o té schopnosti POCHOPIT běžný jazyk a dle toho vykonat potřebné. Nazvěme to třeba umělou inteligencí, což je sice rozhodně lepší než nešťstný pojem "hlasové ovládání", který je zažitý na něco jiného, ale stejně to inteligence není.
Jde totiž jen o jiný způsob přijímaní příkazů a hlavně jiný způsob jejich aplikace. Typicky u toho mého příkladu - archiv je schopen si poradit s fulltextovým vyhledáváním, ale já chci vyhledávání dle PŘEVLÁDAJÍCÍ barvy prvků, dle pozice, dle tvaru...
Na to nepotřebuju žádného inteligenta, na to mi stačí cvičená opice, která dokáže tohle zpracovat a předloží výsledky s určitou pravděpodobností. Koneckonců tohle už umějí v jednoduché podobě vyhledávače - posuzují relevanci odpovědi k položenému dotazu.
A ohledně času - máte pravdu, že to není otázka deseti let. Ono by to šlo totiž už dnes. Pochopitelně v omezené míře. Zatím tedy jen tak, že holt každý způsob dotazů by musel být doprogramován, nelze počítač samovolně naučit věc úplně nepředpokládanou, ale v rámci daných věcí už učení možné je.
Čistě pro zajímavost - co myslíte, že bude snazší:
1. Aby vám schopný programátor během 2 hodin napsal nějakém RAD prostředí primitivní prográmek, kterému zadáte "hledám obrázek v libovolném programu, ve kterém je převládající barva žlutá", a on projede všechny BMP, JPG, GIF, PNG atd. soubory (protože to RAD prostředí obsahuje předdefinovanou komponentu Image, která umí načítat obrázky), pro každý načtený soubor spočítá jednoduchou iterací výskyt barev a vyhodí vám "2007oznameniNovakovaVerze3.png obsahuje 85% žluté barvy"
...
nebo
2. aby vizionáři z Redmondu strávili 20 let zamořováním všech počítačů dalšími a dalšími Woknamami, v nichž budou s každou další verzí slibovat, že tentokrát už Prů$kumník není taková nepoužitelná blbost jako minule, že tentokrát už to fakt jako funguje a proto byste za to měl zase dát 200 dolarů
?
Protože já mám dojem, že jediné, co se Microsoftu daří opravdu dokonale, je vychovávat postupně z čím dál většího počtu lidí čím dál větší hovada. Před deseti lety, kdo měl na ploše víc jak 20 ikon, tomu se počítač přestal hýbat. Dnes má průměrná Mánička na ploše 200 zástupců, přílohy mailů editujeme přímo v mailech, ani se neobtěžujeme si je uložit (takže když se nám pak podaří tu přílohu totálně rozdrbat, tak jsme nahraní, protože nemáme originál), Skrývání přípon a podobné debilnosti vedou k zavirovaným počítačům, funkce "Přepošli všem v adresáři" by měla být označena za hrdelní zločin... Kde je ten pokrok? 3D efekty při hraní Solitéru? Skrývající se menu WMP 10, kvůli kterému to žere o 20% systémových prostředků víc než verze 9?
Celý úžasný Aero je horší než Aqua, stará nějakých 5 let, zato však mnohem náročnější na výkon. Proč všichni pořád tak nadšeně tleskají tomu, jak Microsoft neumí?
Teda pradstavivost nic moc. Nebylo by lepsi, kdybyste jen pomyslel co chcete a pocitac by to udelal? ;-)
Ne, ted vazne. Ten pozadavek nema nic spolecneho s hlasovym ovladanim, ten je ciste o umele inteligenci.
A, popravde receno, casto bych ocenil u programu (zvlaste od MS) spise mene inteligence - aby udelali _presne_ to co od nich chci a nepokouseli se porad "premyslet" "jak jsem to asi myslel".
navíc bude asi dost problém poznat, kdy chci počítači něco nařídit, kdy mluvím s kolegou po Skype nebo telefonu a kdy si pouštím hudbu nebo poslouchám nějaké mluvené slovo, například Fuku a jeho Odvážné palce