Vlákno názorů k článku 60 minut s Googlem od David Rohleder - Osobně si myslím, že k tomu, aby se...

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 1. 2005 11:57

    David Rohleder (neregistrovaný)
    Osobně si myslím, že k tomu, aby se dalo rozumně překládat nepotřebujeme vědomí. Ovšem vazby mezi objekty jsou potřeba. Pak ovšem interpretace slova kůň musí vycházet z vazeb na okolní text. No a nejjednodušší interpretace pak bude ta, že se spočítá metrika vzdálenosti mezi těmi okolními objekty a koněm. Už s takovou metrikou velkou pravděpodobností dojdeme ke správné interpretaci.

    Mně osobně se strašně líbil takový model grafického znázornění jednotlivých synonym, které měly mezi sebou vazbu (třeba Visual thesaurus). Tam je celkem pěkně vidět, jak je možné ty vazby realizovat.

    Nicméně mé představy jsou jenom představy nepoučeného laika.

  • 12. 1. 2005 12:19

    Petr (neregistrovaný)
    To mozna bude fungovat pro odbornou literaturu, kde je zadouci, aby cely text mel "uceleny kontext".

    Rozhodne to musi zalostne selhat na humoru, kde principem je prave ta prudka (neocekavana!) zmena kontextu.

    Vim, ze existuji texty, v nichz je humoru 0% a mene. Nastesti nejsem pravnickou mluvu nucen cist. Ve vsech ostatnich textech je humoru aspon 1% - a v automatickem prekladu z humoru vznikne situacni komika :-)
  • 12. 1. 2005 12:40

    Digero (neregistrovaný)
    Vedomi? Tohle uz jsem slysel kdyz se delali sachove programy... Jedine co je potreba je chytry algoritmus, spousta vypocetniho vykonu a mravenci prace pri katalogizaci jazyka.
  • 12. 1. 2005 12:46

    Vítězslav Novák (neregistrovaný)
    Nebyl bych AŽ TAK pesimistický. Přinejmenším nevidím na "vědomí" nic tak mystického, aby to nešlo nasimulovat jinde než v cca 15G neuronů. Ale to bychom se dostali na filosofickou půdu, a ta je hodně měkká.

    Ke správnému překladu (na úrovni člověka) potřebuje mít překladatel - člověk nebo stroj - spoustu znalostí. Což stroj zatím nemá a ještě dlouho mít nebude, přinejmenším proto, že je neumíme nějak pořádně zapsat. A to zahrnuji i dnes tak moderní ontologie a sémantický web a podobné. Protože tohle je na lidském vymýšlení, nepůjde to tak rychle dopředu jako HW, spíše slimáčím tempem SW.

    Jiná věc je, že ani člověk, byť vybavený patřičnou znalostí, nedokáže vždy správně rozhodnout. Ten váš příklad s koněm patří do této kategorie. Když řeknu "kůň", nemá to kontext a jsem v koncích já i mašina. A budou konstrukce, kde budu v koncích vždy. Ovšem nebudu-li po stroji vyžadovat, aby byl chytřejší než člověk, jednou (JEDNOU!) toho překladu a porozumění snad dosáhneme.
    Pak se třeba nestane, že v překladu špiónského thrilleru z USA se čeká, co na to řekne pan Langley... Když se chce někdo živit překlady, měl by znát základní reálie. No nic.

    Ale zdůrazňuji - dnes je možné udělat morfologickou a syntaktickou analýzu, ale nějaké porozumění, tedy i slušné překlady jsou hudba hodně daleké budoucnosti. Hodně daleké je ovšem v tomto oboru tak 10-20 let. Ale možná jsem optimista.
  • 12. 1. 2005 19:54

    Bochi (neregistrovaný)
    Ano, presne tak. Humorny text, satira, ironie, poezie, ... to je jen par prikladu, na kterem si budou vylamovat automaticke prekladace zuby jeste mnoho desitek let, pokud to vubec kdy zvladnou.
  • 12. 1. 2005 20:10

    Bochi (neregistrovaný)
    "...aby to nešlo nasimulovat jinde než v cca 15G neuronů. "

    V zasade mate mozna pravdu, ale tech 15G neuronu neni zadna malickost. Jsou urcite problemy, ktere jsou zdanlive resitelne (tj. existuje na ne prislusny matematicky aparat), ale jejich vypoctova slozitost je takoveho radu, ze problem jako celek se stava de facto neresitelnym. Neresitelnym v principialnim smyslu.
    Podle kvantovych a gravitacnich zakonu moderni fyziky byste take mozna mohl zdanlive nasimulovat chovani (dejme tomu) nasi galaxie, ale jen k ulozeni potrebnych dat (nehlede na samotny vypocet a ziskavani dat) byste potreboval radove vice atomu, nez je obsazeno v teto galaxii. Takze neco, na co mame sice k dispozici rovnice a metody k ziskani dat, je presto neresitelne, pouze z duvodu extremni slozitosti.
    A to jeste (vratime-li se zpet k neuronove siti) pomijim nutny proces uceni, ktery by na tom systemu 15G neuronu musel probehnout, coz by take urcite nebyla otazka par dnu. Dite, ktere je na svete par let, take neporozumi zdaleka kazdemu textu, aby se dostal na solidni uroven potrebuje clovek roky a roky uceni a interakce s realnym svetem. Potazmo takovy univerzalni prekladac by musel byt vic nez jen nejaka 15G "kopie" lidskeho mozku, ale spise supermozek, ktery ma rozhled v daleko vice oborech nez bezny clovek. Lidsky prekladatel, byt spickovy, take nezvladne s patra prelozit text z libovolneho oboru.
    Takze vasich 15G by mozna muselo byt tak 100G, mozna 1000G, kdo vi. Kazdopadne si nedokazu predstavit, jak to zvladnout s vypocetni technikou, byt by byla mnohem a mnohem vykonnejsi nez dnes.
  • 13. 1. 2005 13:32

    J (neregistrovaný)
    Kdepak, sachy maji jednoznacna pravidla, jazyk nikoli.

    Sachove programy funguji tak, ze zkousi v idealnim pripade vsechny moznosti + porovnavaji je s databazi odehranych partii a po te vyhodnoti ktery tah je za dane situace nejvyhodnejsi.

    U prekladu jazyka mate ten problem, ze lze napsat i cely odstavec, s nekolika moznymi vyznamy. A pokud chcete zachovat vyznam puvodni, musite jej chapat.
  • 13. 1. 2005 15:28

    Vítězslav Novák (neregistrovaný)
    Mně šlo o něco jiného. Vědomí - ať už je to co je to, zatím se mi nepodařilo najít definici, jež by nebyla vágní k nepoužitelnosti - je funkcí nějakých těch 15G neuronů, z čehož nezanedbatelná část dělá pomocné práce, případně řídí na dost nízké úrovni. Tedy určitě se dá materiálně navodit. Jestli je někdy nasimulujeme v křemíku, jestli to bude neuronová síť, těžko říct. Umím si představit, že to bude nějaká mohutně paralelní architektura plus informace plus vstupy.

    Ale na překlad nepotřebujeme tohle všecko. Rozhodně není nutné, aby překladatel nad Harlequinkou slzel, stačí, aby rozeznal jakou emoci autor do textu vložil a a věděl jak ji vyjádřit v cílovém jazyce. Což IMHO je záležitostí pravidel, ovšem strašně mnoha pravidel. V podstatě znalostí o skutečném světě. A reálií, pochopitelně. Když se v "námořním" románu dočtete o uzlech za hodinu, je to trapas. "Pana Langleyho" jsem citoval. Blbosti z počítačové branže nejspíš znáte.
  • 13. 1. 2005 15:34

    Vítězslav Novák (neregistrovaný)
    Obávám se, že nejen tady.

    Někdy se to určí z kontextu, někdy ovšem ten kontext bude hodně daleký. Příklad - čínština má mnohem víc slov pro rodinné příslušníky. My známe bratra - oni staršího a mladšího bratra, různá slova. Strýčky a tetičky z několika kolen a rozlišením jestli je tetička sestra otce nebo matky, případně přivdaná. Někdy je to podstatné. A přeložte to z češtiny!
    Přitom by to mohl být odborný sociologický text.

    Japonci mají zdvořilostní stupně, záleží na tom kdo a s kým mluví. Dělali si srandu z Američanů po válce - oni se učili japonsky od svých milenek, takže pak mluvili ženským jazykem, což v machistické japonské společnosti působilo srandovně. Když budete překládat obyčejný rozhovor, musí se vybrat patřičné stupně už proto, aby výsledek byl neutrální. Když podřízený mluví s nadřízeným neutrálně (a ne uctivě) už to setsakra něco znamená! Něco, co v původním textu vůbec nemuselo být, ale přesný překlad to tam dodá.

    Kdepak, na automatické překlady bych nespoléhal. Hned tak ne. A to "Ludvík dodávka Beethoven" není nejhorší.
  • 14. 1. 2005 14:24

    PaJaSoft (neregistrovaný)
    Coz neni takovy problem pro Google diky neskutecne velke databazi frazeologickych spojeni, jak spravne nekdo poznamenal...- proste je to casove i velikostne ohraniceny ukol.
  • 14. 1. 2005 15:34

    Vítězslav Novák (neregistrovaný)
    To jsou šachy taky. Podstatně omezenější. Především jsou šachy strašně jednoduchá hra. 64 políček, 2 x 16 figurek, pro každou jasná, jednoduchá a jednoznačná pravidla, co může. V každě situaci se dá vygenerovat úplná množina možných kroků. Jediný problém je s exponencielní katastrofou.

    Jazyk popisuje reálný svět, který je mnohem složitější, pravidla platí jednou víc a podruhé míň a je jich mnohem víc. Jak tohle chcete zvládnout prostým prohledáváním obrovské databáze textů, to mi je nejasné.

    Třeba v mnou zmíněném příkladu s panem Langleym - vy nějak statisticky určíte, že Langley je ústředna CIA, tedy že to je metafora? V jiném kontextu to metafora nemusí být, proč by nemohl být pan Langley a nebo být míněno město Langley (dokoce to samé)? Statisticky zjistíte, že se vyskytuje blízko sebe "Langley", "CIA" a "centrála", ale nejdřív byste musel vědět, co je to centrála, aby vám vyplynulo, že "Co na to Langley" znamená "Jaké je mínění centrály CIA" nebo "dtto šéfů CIA".
    Ale totéž může taky znamenat, že se ve městě L. něco stalo, a co na to jeho obyvatelé.
    Nakonec, i v CIA může pracovat pan Langley, dokonce na ústředí, takže půjde o Langleyho z Langley, což může mít význam.

    A když to statisticky určíte, tak zjistíte, že nejpravděpodobnější je použití slova Langley jako metafory, leč zrovna v tomto textu to tak být nemusí.

    Kdepak - překlad znamená porozumění textu a porozumění znamená znát spoustu informací mimo tento text. A souvislostí mezi nimi.

    ps - teď mě napadlo, že Langley taky může znamenat pana Lang-li, Číňana, rybáře z Kantonu. Nebo cokoli chcete´.
  • 14. 1. 2005 15:43

    PaJaSoft (neregistrovaný)
    Jazyk popisuje reálný svět, který je mnohem složitější, pravidla platí jednou víc a podruhé míň a je jich mnohem víc. Jak tohle chcete zvládnout prostým prohledáváním obrovské databáze textů, to mi je nejasné.

    Jednoduse mily Watsone, pomoci vah... a databazi na to ma setsakramentsky dobrou aby se v tech vahach nemylil.

  • 14. 1. 2005 17:45

    Vítězslav Novák (neregistrovaný)
    Přeji příjemné vyvíjení. Já prozatím vím, že když nějakou informaci agreguji, tak značnou část informace ztrácím.

    A že by dobrá databáze? Především žádná databáze. Spousta textů, často protiřečících si, často nesmyslných, často spíše desinformačních než informačních...
    Věřit, že z tohoto vznikne nějaká relevantní informace, je podobné, jako věřit, že vznikne dobrá encyklopedie stylem wikipedie. a nebo poživatina style pejska a kočičky, ovšem míchajícím miliardy pláců.

    Je dobrý být optimista, ale je rozdíl mezi optimistou a soutěžním skokanem na špek. Vy byste se mohl přihlásit do nároďáku, pokud taková disciplína vznikne.
  • 14. 1. 2005 18:29

    -- (neregistrovaný)
    na druhou stranu lze si i predstavit ze v nekterych oblastech bude databaze znalosti vct. kontextovych natolik sirsi u stroje nez u cloveka, ze muze plodit v urcitych situacich i preklad presnejsi..
  • 14. 1. 2005 18:43

    -- (neregistrovaný)
    prave ten Pan Langley je dle meho nazoru spise pripad kdy bude stroj uspesnejsi, nikdo nemuze znat vsechno, ale stroj ma mnohem vetsi sanci se o tom dovedet - monitoruje li napr. vsechen tisk narozdil od nekoho kdo precte rocne 20 knizek..
  • 30. 11. 2006 20:19

    subcommandante marcos (neregistrovaný)
    Omlouvám se předem za stručnost, ale mám naspěch. Obávám se, že autor tohoto komentáře se příliš dobře neorientuje nejen v tom, co je a jak zhruba funguje strojový překlad, zároveň nepříliš dobře rozumí tomu, v čem spočívá problém s popisem jazyka pro jeho potřeby. Strukturalismus skutečně velmi dobře pochopil, že jazyk formálně charakterizuje jeho struktura, bohužel tentýž strukturalismus nedokázal formulovat svoje poznatky pomocí takového prostředků a z takovou explicitností, která by umožňovala jeho počítačové zpracování pro potřeby automatického překladu. Tedy alespoň ve své první fázi. S rozvojem generativismu ale začal být systematičtěji uplatňován popis jazyka orientovaný tímto směrem, takže např. u nás skupina kolem Petra Sgalla už několik desítek let pracuje na strukturalismem motivovaném a generativismem poučeném zpracování přirozeného jazyka právě pro potřeby automatické analýzy a syntézy, ergo překladu.
    Otázka, jestli počítače mají nebo nemají vědomí dost dobře stojí a padá s tím, jaká kritéria si pro evidenci vědomí stanovíme. Pokud budeme behavioristé a opřeme se o jistou variantu turingova testu, pak nás už dnes leckterý program svou reakcí dokáže přesvědčit, že se jedná o myslící bytost, tj. nositele vědomí (což neznamená, že mít vědomí musí nutně znamenat myslet lidsky!) Ale do toho bych se nepouštěl, protože to není k debatě o překladu v tomto kontextu vůbec potřeba. Počítačový překlad je primárně orientovaný na texty a spočívá de facto v jejich desambiguaci. Existuje přitom mnoho způsobů, jak reprezentovat sémantiku přirozených jazyků (např. pomocí matematicko-logické teorie modelů), takže vaše námitka o nemožnosti dát počítači zásobu významů je mylná. Stejně tak je mylná vaše interpretace saussurovské dichotomie označující - označované, kde označované není objekt reality, ale pojem charakterizovatelný také jako hodnota (pravdou ale je, že i de Saussure je v tomto ohledu nejednoznačný). Každopádně argumentace v podstatě marxistickou teorií odrazu přináší více problémů než řešení. Na vaši výtku, jak rozlišit potenciální nejednoznačnost některých výrazů, je možné reagovat odkazem na kontext (zachytitelný formálně) apod.
  • 12. 1. 2005 10:59

    Bedra (neregistrovaný)
    Myšlenka strojového překladu je hezká, ale absolutně nereálná. Tady je třeba zabrousit do lingvistiky, doporučuji autory jako J. Černého, F. Čermáka a především pak Základy jazykovědy od Adolfa Erharta. Ta knížka - byť je to jen přehled - hezky ukazuje, co jazyk vůbec je.
    Jazyky jsou dnes - co se týká struktury velmi dobře popsány. Známe už například fonologické podobnosti, hláskové korelace, syntaktická a morfologická pravidla. Srovnávací a historická gramatika a především strukturalitsmus tomuto hodně pomohly, dneska by díky tomu teoreticky nebyl problém vzít nějaký jazyk a naházet jej do počítače. Například čeština je dneska popsána jak synchronně, tak diachronně; v obou případech jak jako struktura sama o sobě, tak ve vztahu k ostatním jazykům. Máme tedy přesný popis a nebyl by tak problém jej aplikovat.
    Naprosto, ale naprosto zásadní problém je, že počítač nemá vědomí. A bez něj strojový překlad nikdy nemůže být realizován.
    V realitě totiž existuje nějaký objekt (označované). Tento objekt má odraz a otisk vě vědomí, tedy pojmenování skutečnosti. A k tomuto pojmenování skutečnosti máme formu (označující). Například pro objekt strom máme ve vědomí nějaký otisk, pro nějž máme uložený kód různých jazyků (strom, tree, baum atd.).
    Pokud nám z toho řetězce vypadne vědomí, překlad nebude nikdy možný. Reálná vazba mezi věcí a slovem totiž neexistuje! Dejme tedy nejdříve strojům vědomí jako zásobu významů, k nimž si bude přiřazovat slova různých jazyků, a pak můžeme hovořit o nějakém překladu.
    Kromě toho jsou tady další překážky, které vycházejí například z funkce jazyka. Kognitivní lingvistika (v současnosti dost populární) hovoří o kategorizaci a interpretaci. Opravdu nevím, jak by stroj mohl správně sémanticky interpretovat kontext symbolu kůň. Kůň jako zvíře? Jako sešívačka? Jako hobby? Výkon motoru? Bez otisku ve vědomí a porovnávání z předchozí zkušeností stroj tento kontext nikdy nedokáže vystihnout.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).