Jak jsme na Lupě informovali před několika dny, Česká republika ve spolupráci se společností AMD povede vývoj evropské konkurence pro americké a čínské velké jazykové modely (LLM) typu GPT od OpenAI, Llama od Mety, Grok od Muska nebo DeepSeek. Ty tvoří základ současného vzestupu prvků umělé inteligence jako ChatGPT, Dall-E, Sora a podobně.
Zpráva o evropské iniciativě nazvaná OpenEuroLLM na více místech vyvolala kritiku a úšklebky s tím, že přeregulovaná Evropská unie zase přichází pozdě a opět na to jde svrchu a přes dotace. Jan Hajič z Matematicko-fyzikální fakulty Univerzity Karlovy, který projekt povede, minimálně s jednou částí souhlasí.
„Je to pozdě, to tam klidně napište, tímto názorem se netajím,“ řekl Hajič Lupě ve své kanceláři na Matfyzu, kde mají cedulku také další tuzemští vědci včetně Tomáše Mikolova, známého výzkumníka z oboru AI. „Byl bych radši, kdyby podobný projekt vznikl před pěti lety. Evropské unii by rozhodně prospělo, kdyby taková věc vznikla výrazně dříve,“ doplnil Hajič.
Ono se ve skutečnosti dříve začalo. OpenEuroLLM byl vypsán už v roce 2023 a oznámil se až nyní. Souvisí to s procesy v rámci evropských struktur. „Z toho plyne i to, že náš projekt není nějakou urychlenou reakcí na DeepSeek. V EU vše procesně trvá,“ posteskl si Hajič.
Správné modely
Cílem OpenEuroLLM je vyvinout LLM modely pro 32 jazyků včetně českého, přičemž prioritu hrají ty z Evropské unie a přidružených partnerských zemí. Modely mají být otevřeny, dokumentovány, veřejně k dispozici a stejně tak data mají být otevřená k inspekci. Modely by se měly vyhýbat cenzuře a takzvaným biasům (předsudky či tlačení určitých názorů), a pokud to technicky nebude možné, mělo by vše být transparentně popsáno. Kvalita jednotlivých modelů by měla být podobná, menší jazyky by tedy neměly být upozaděny.
Velkým tématem nástupu éry AI reprezentované LLM je nekonkurenceschopnost Evropy. Dominantním dodavatelem čipů pro trénování modelů a inferenci je americký podnik Nvidia doprovázený AMD. Datová centra za desítky až stovky miliard dolarů rostou také primárně v USA, případně po světě za americké peníze. Firmy nabízející AI produkty jsou rovněž z velké části z Ameriky. Sekunduje tomu Čína, která i skrze americká embarga na vyspělé čipy a další technologie dělá velké pokroky, a to jak v čipech (Huawei Ascend a další), tak v softwaru.
EU mezitím jako první na světě připravila regulaci Akt o umělé inteligenci (AI Act), což lze brát za jeden ze symptomů toho, jak jsme ztratili schopnost vytvářet podmínky pro podnikání a uvádění vědeckého výzkumu do praxe.
V návalu mnohdy prvoplánové kritiky se často zapomíná na to, že i Evropa má pár slušných AI firem. Francouzský Mistral je důstojnou konkurencí pro OpenAI či Anthropic, německý DeepL je velmi dobrý překladač a polský ElevenLabs je populární nástroj pro vytváření hlasů z textového zadání. Čeští investoři na tomto startupu zřejmě brzy vydělají miliardy. Obecně ale starý kontinent kouká na USA a Čínu zespodu a teď se řeší, co s tím. Vědu a výzkum stále máme na špičkové úrovni, horší je to s tím podnikáním.
Evropský problém
Naše vlastní velké jazykové modely mají mít dva hlavní účely. První je samozřejmě ekonomický. Rychlý nástup DeepSeeku ukazuje, že karty ještě nejsou rozdány a v mladém oboru je stále prostor překvapit. A druhým je takzvaná technologická suverenita, což je termín, který Evropská komise opakuje už několik let. Je třeba technologii rozumět, mít nad ní kontrolu a nebýt závislý na ostatních. Je také dobré, aby modely respektovaly lokální kulturu, chápaly kontext a dokázaly předkládat relevantní informace pro daný region.
„Potřebujeme, aby u nás zůstávala data, aby se tady provozovaly modely a aby lidé neodcházeli za příležitostmi jinam a zůstávali v evropské vědě a firmách,“ doplnil Hajič.
Profesor Hajič dlouhodobě se věnující výpočetní lingvistice je toho názoru, že v Evropě dokážeme vyvinout modely kompetitivní s těmi dnešními. Ostatně i z toho důvodu do projektu OpenEuroLLM šel. Ohledně procesních struktur v rámci EU je ale skeptičtější.
Evropské papírování, dotace, granty a podmínky nejsou pro každého. Pěkně se tím živí řada konzultačních firem a byznys s compliance utěšeně roste, pro řadu firem jsou ale evropské projekty ztrátou času. Papírování nestojí za ty peníze a jen vše neúměrně zdržuje. Do OpenEuroLLM se zapojí 20 podniků, výzkumných institucí a superpočítačových center, ale například hlavní zdejší LLM hráč Mistral chybí, i když zájem ze strany OpenEuroLLM byl. Nepřidal se ani Seznam.cz, který si tuní modely a AI postupně nasazuje do svých služeb. Kuloární informace mluví o tom, že i právě procesy kolem projektů a peněz z EU u podobných firem hrají roli.
OpenEuroLLM má přislíbeno financování 34 milionů eur (asi 860 milionů korun) na tři roky. Dlouhé procesy se projevují i zde. Hajič například stále čeká na výzvu národního kofinancování, kterou má vypsat Ministerstvo školství. Na to, aby po dobu tří let zaplatil až 10 odborníků (přilákat je chce i z ciziny a zapojit hodlá i další univerzity) a další doprovodné náklady, by v rámci státního kofinancování potřeboval 12 milionů ročně (Komise přihazuje to samé).
Kde se to bude počítat
Suma 34 milionů eur ve srovnání s obrovskými financemi, které do LLM vkládá americký a čínský podnikatelský sektor, působí směšně. S tím, jak se DeepSeeku podařilo srazit náklady, už méně směšně, ale pořád směšně. Zde je ale nutné brát v potaz důležitý fakt: v těchto penězích nejsou zahrnuty náklady na výpočetní kapacity nutné pro trénování modelů. Jde o náklady spojené s lidmi a režií. Do oblasti výpočetní infrastruktury už EU investuje dlouhodobě skrze jiné programy.
Hlavní aktivitou tohoto druhu je organizace EuroHPC, která postupně po starém kontinentu buduje rozsáhlá superpočítačová centra. Tyto stroje umístěné v datových centrech se používají pro vědecké a průmyslové simulace, ale jelikož jsou plné AI čipů od Nvidie či AMD, čím dál více se nasazují i pro počítání AI. Součástí EuroHPC je i české národní superpočítačové centrum IT4Innovations při VŠB-TUO v Ostravě. Tamní stroj Karolina má 576 AI čipů Nvidia A100. Ostrava je zároveň napojena na finský stroj LUMI s více než 10 tisíci AI čipy od AMD.
Evropská komise nedávno přišla s plánem na vybudování sedmi nových superpočítačů označovaných jako „AI továrny“ (AI Factories). Zmiňované LUMI díky tomu postaví další superstroj za 15 miliard korun, přičemž Česko na něj skrze Ministerstvo školství a evropské fondy přispěje 550 milionů.
Evropská infrastruktura tedy je k dispozici. Ovšem to, kde se modely vytvořené v OpenEuroLLM budou počítat, se ještě neví a probíhají jednání. Hajič by osobně rád počítal ve velkém superpočítačovém centru v německém Jülich, kde vzniká jeden z nejrychlejších AI strojů na světě, a to i díky Čechům.
„Centra EuroHPC by nám měla pomoci s rozjezdem. Ale nebude to tak jednoduché, každé z těchto center má jinou infrastrukturu. Někde používají karty od Nvidie, jinde od AMD, takže přenositelnost není triviální. Dále obecně máme přislíbeny kapacity z chystaných AI továren,“ shrnul Hajič.
Lidé kolem českého profesora mají s počítáním na evropské superpočítačové infrastruktuře zkušenosti. Hajič od roku 2022 vede projekt High Performance Language Technologies (HPLT), který rovněž řeší modely, ale většinu času v něm trvalo připravit data. Právě data jsou to, co modely definuje, takže je nutné jich mít dostatek a v dobré kvalitě. HPLT zpracoval informace z Internet Archive nebo Common Crawl. Letos vyjde třetí verze datasetu, má být na vysoké úrovni.
Hajič a spol. v rámci projektu HPLT používali popisovaný superpočítač LUMI. Zpracování zabralo tři miliony GPU hodin, tedy výpočetního času AI čipů od AMD. Na LLM modely, které se mají řešit v OpenEuroLLM, budou dle Hajiče potřeba kapacity o dva řády vyšší, což jsou jednotky až desítky procent kapacit evropských superpočítačových center.
Výjimka pro AMD
To, že se projekt HPLT velkou část zabýval zpracováním dat, se ukazuje jako výhoda. OpenEuroLLM má totiž díky dostupnosti připravených dat výchozí startovací bod a data může použít jako základ pro trénování modelů. Ideálně by měly být nasazeny i další datasety a uvidí se, co dovolí rozpočet.
Hajič se k vedení OpenEuroLLM dostal i díky tomu, že byl jako vedoucí zapojený v HPLT. Původně se ale o projekt vývoje evropských AI modelů zajímaly dvě různé skupiny, které se nakonec podařilo spojit.
Kolem druhé skupiny se točila finská společnost Silo AI, která se označuje za největší evropskou privátní laboratoř na umělou inteligenci. Silo je dnes součástí americké firmy AMD, jenž startup získala za 665 milionů dolarů. AMD, které skrze Silo AI s Hajičem projekt vede, je jediným mimoevropským subjektem v OpenEuroLLM. Finská vláda dala Evropské komisi záruky, že z finské pobočky Sila nic neunikne, a AMD tak dostalo výjimku.
Práce na OpenEuroLLM se pomalu začínají rozjíždět. Je pravděpodobné, že cíle skutečně budou dosaženy a během tří let vzniknou velké jazykové modely pro různé jazyky. Podle informací Lupy má být také brzy oznámený další evropský AI projekt. Oba by dohromady měly mít k dispozici 80 až 90 milionů eur, čistě na lidi.
Otázkou je, zda to s evropskou procesní rychlostí bude stačit a svět za tu dobu nebude někde jinde. „Znovu potvrzuji, že evropské procesy jsou pomalé a začínáme pozdě. Ale neházím flintu do žita, jinak bych do toho nešel,“ zakončil Hajič. Další otázkou je, zda přístup inovací diktovaných svrchu může být úspěšný a zda nevěnovat víc energie řešení příčiny problému – deregulaci a podpoře podnikání a investic.
Evropa se skrze centralizované akce Evropské komise zřejmě bude snažit dál. Jednou z aktivit je vytvoření evropského superpočítačového procesoru, což je projekt, který povede brněnská firma Codasip doplněná o ostravské IT4Innovations. V Barceloně zase dostanou za úkol vytvořit evropský AI čip.