Před časem prošla sociálními sítěmi série krátkých filmů, v nichž v roli influencerů vystupovali Přemysl Oráč nebo kněžna Libuše. Všechny vznikly s pomocí umělé inteligence, jejich tvůrci Ondřejovi Svobodovi zabralo vytvoření každého dílu asi jeden den.
V podcastu pro Lupu vysvětluje, jak snadno lze podobné snímky dnes vytvářet nebo jaké chybí nejčastěji lidé při používání AI generátorů dělají. „K AI bych přistupoval jako k parťákovi z týmu, který mi pomůže něco vytvořit,“ dodává.
Rozhovor s Ondřejem Svobodou si můžete poslechnout ve formě podcastu na svých oblíbených podcastových službách nebo přímo zde:
Níže vám nabízíme přepis části podcastového rozhovoru do textu. Podporovatelé Lupa.cz zde mají k dispozici kompletní strojový přepis (využíváme k němu AI služby Whisper a Claude, text je poté redakčně upraven).
Deset let jste pracoval pro Avast. Jak se stane, že se člověk v manažerské pozici stane AI videotvůrcem?
Krásná otázka. Já jsem se videem zabýval už předtím, než jsem nastoupil do Avastu. Natáčel jsem s kamarády, vytvořili jsme dabovanou parodii Pár pařmenů, která má letos asi 21 let. Natáčeli jsme nějaké filmy, svatby, zakázky, pár reklam. Bylo to spíš jako koníček. Pak jsem se rozhodl, že půjdu studovat informatiku, dostal jsem se do Avastu a byla to úžasná zkušenost.
Ale už mi to stačilo. Říkal jsem si, že chci zkusit něco nového, jiného. Dal jsem si delší pauzu a během ní jsem uvažoval, do čeho se více ponořit. Neuvěřitelně mě začal fascinovat svět umělé inteligence – začalo GPT, Midjourney a tak. Cítil jsem, že je to něco, čemu chci věnovat čas, co chci zkoumat, ponořit se do toho a zjistit, jak to využít pro kreativní tvorbu. Postupně jsem dospěl k tomu, že se mi podařilo spojit technologický background ze studií informatiky a z Avastu a zároveň tvůrčí choutky a aspirace, které ve mně vždycky byly.
Mimoto se věnuji už deset let improvizačnímu divadlu. Takže jsem našel odvětví, kde můžu na maximum využít věci, které mě nejvíce táhnou – neustále se měnící technologie, neustále nové podněty v oblasti vývoje AI nástrojů a zároveň možnost kreativního vyjádření, sdělení myšlenky, pobavení lidí a tak.
Díky za vysvětlení. Teď už k AI videím. Poznáte na první pohled, že nějaké video bylo generováno s pomocí umělé inteligence?
Musím se trochu zamyslet, ale většinou zatím ano. Tím, že pracuji s těmito modely denně, si často myslím, že dokážu i odhadnout, který videomodel byl pro generování použit. Je to díky tomu, že neustále vidím, jaké výsledky dává. Kdyby šlo o ty nejlepší, jako je Veo 3 od Googlu nebo Seedance 1.0 Pro od čínské společnosti ByteDance, tak si myslím, že většina lidí by to poznat nemusela. Nicméně jsou tam někdy ještě artefakty nebo nějaká specifika, podle kterých si troufám říct, že to ještě poznám. Ale nemyslím si, že to bude dlouho. Je to otázka možná měsíců, kdy už i já, i když s těmi modely pracuji neustále, to budu mít hodně těžké.
Zmínil jste artefakty. Co tam je ještě špatně?
Typicky u Veo 3, které generuje videa včetně zvuků, je to hodně poznat na zvuku. Ten zvuk zní jako v nižší kvalitě, jako kdyby to byla špatná MP3, nějaká špatná nahrávka s vysokou kompresí. Zároveň lidé často používají rychlejší model Veo 3 Fast, u kterého je to poznat vizuálně – ten obraz vypadá příliš kontrastně. Postavy, které tam mluví, mluví trochu uměle, nedokonale, bez nějaké intonace. Občas v pohybu těch postav nebo v detailech se stane, že nějaká věc tam zanikne nebo se zničehonic objeví. Takovéto detaily. Člověk se ale musí hodně snažit, aby to rozpoznal.
Zmiňoval jste, že se videu věnujete už třeba dvacet let. Dokážete říct, jak může v tuto chvíli při současných nastaveních AI usnadnit práci videotvůrci oproti klasické produkci?
Myslím si, že podobně jako v jiných oblastech je v prvé řadě potřeba se zamyslet, jestli ten záměr, který videotvůrce chce zpracovat, má smysl natáčet klasickou cestou, nebo jestli má smysl ho vytvořit pomocí AI kompletně, nebo se zamyslet nad tím, jestli dává smysl to nějak zkombinovat. Myslím si, že mnoho videotvůrců, kteří jsou zvyklí tvořit klasickou cestou, ty nástroje zatím ještě zavrhuje a nechtějí je nechat vstoupit do tvůrčího procesu, do lidské kreativity. Já si myslím, že je důležité vědět, co ty nástroje dokáží, a být ochoten je do procesu zapojit.
Možná nejjednodušší cesta pro člověka, který tvoří klasický videoobsah, je dogenerovat si nějaké záběry, na které se během klasického natáčení zapomnělo. Mám známé, kteří natáčejí klasicky i pomocí AI. Když člověk stříhá a zjistí, že zapomněl natočit detail nebo jiný úhel, může si vzít jednoduše snímek z natočeného materiálu, požádat nějaký obrazový generátor, třeba nedávný NanoBanana od Googlu, aby vytvořil záběr z jiného úhlu nebo detail na nějaký předmět. To si potom rozpohybuje. Ulehčuje to postprodukci a výsledek může být zajímavější.
Hovořil jste o konkrétních případech, kdy se to dá využít – generování chybějících záběrů. Jsou tam ještě další oblasti, kde vidíte, že se to už v současné době používá? Třeba pro rozpohybování historických záběrů nebo nějaké produktové věci. Kde je to použití nejčastější?
Vnímám, že nejčastěji jsou to firmy, nebo třeba menší firmy, které měly ambici mít nějaké video, ale třeba na to neměly peníze, protože klasické natáčení je přece jen drahé. Tyto firmy najednou vidí příležitost, že by mohly mít své vlastní třeba produktové video nebo představení služby levněji, protože ty AI nástroje to umožňují. Otevírá se prostor pro menší firmy, aby mohly mít svá videa. Může to být produkt, může to být třeba šampon. Vezme se produktová fotka, nějak se přetvoří, rozanimuje a je z toho krátký několikasekundový reel na sociální sítě. Řekl bych, že je to docela široké. Nejvíce to vnímám tedy u těch menších firem, které by dříve k videu měly příliš daleko.
Videa, o kterých mluvíte, mají několik sekund. To je jedno z omezení, které v tuto chvíli ještě platí, pokud se nepletu.
Ano. Standard je 5 až 10 sekund.
Jsou tam ještě nějaká další omezení? Například, že aplikace neudrží konzistenci obrazů?
To trochu záleží model od modelu. Velkou výzvou, která se sice neustále zlepšuje, ale stále je výzvou, je zachovat vzhled postavy. Může se stát, že některé videomodely během těch 5 až 10 sekund způsobí, že ta postava najednou po několika sekundách vypadá jinak, než vypadala na začátku. Je potřeba snažit se najít rovnováhu mezi výslednou délkou videa, a tím, aby ta postava ještě vypadala tak, jak má.
Zároveň tím, že je délka videa takto omezená a ty modely nemají ještě úplně dokonalou znalost fyzického světa a všech fyzikálních zákonů, i když i to se velmi výrazně zlepšuje, je potřeba držet ten prompt na nějaké rozumné míře toho, co se tam má stát. Je možné zkombinovat pohyb kamery, pohyb postavy, nějakou akci, nějaké změny, ale ve chvíli, kdy by to měl být záběr, kde postava udělá příliš mnoho činností zároveň, je velmi pravděpodobné, že by to nevypadalo dobře. Buď by ta postava ty věci dělala zároveň, nebo by něco neudělala, nebo v jiném pořadí.
Další omezení přichází ve chvíli, kdy člověk chce sestříhat více záběrů za sebou. Je složité zajistit, aby postava vypadala stejně, aby to prostředí vypadalo stejně. Aby, pokud tam má nějaká postava mluvit, to vypadalo přirozeně. Paradoxně je jednodušší vytvořit záběry, které by pro klasické natáčení byly nejobtížnější. A ty záběry, které naopak – my když se teď spolu bavíme, je to velmi jednoduché nastavení, dvě kamery, které to natáčejí – udělat tohle pomocí AI tak, aby to vypadalo věrohodně se vším všudy, je komplikované. A trochu se vracím k tomu, že je potřeba se rozmyslet, jestli pro ten daný záměr je vhodnější využít klasické natáčení, nebo vygenerovat pomocí AI, nebo kombinaci.
To časové omezení existuje proč? Proč se nedají generovat videa třeba na 30 sekund?
Zjednodušeně řečeno to video, když se generuje, tak se generuje jakoby celé najednou. Podobně jako se obrázky generují z nějakého počátečního šumu a vyjasňují se, tak i to video se generuje ze série obrázků, kde každý má nějakou míru šumu. Postupně se vyjasňují. Jedno z omezení je pravděpodobně i to, že při delším videu by bylo potřeba ještě větší výpočetní výkon. A pro normální použití by to nemuselo být až tak praktické. Dlouho by to trvalo, bylo by to drahé a zároveň je tam vyšší riziko, že by se tam objevily nějaké morfování, změna těch věcí a podobně.
Co si myslím – Google, když před pár týdny představil svůj Gemini model, tuším dva, tam už bylo vidět, že dokáží držet nějakou konzistenci světa, ve kterém se dá pohybovat a dělat nějaká míra interakce. Takže jsem přesvědčen, a tipl bych si, že to přijde od Googlu, kdy tohle časové omezení už nebude tak podstatné.
Druhá věc je, jestli vůbec potřebujeme delší záběry, protože když se člověk podívá na reklamy, filmy, tak většinou jsou to několikasekundové záběry, které jsou stříhané za sebe. My spíš potřebujeme do té sekvence doplnit různé úhly, střih. Když to člověk generuje zvlášť, má nějakou míru kontroly. Ve chvíli, kdy by se to generovalo jako celek, ta míra kontroly je o něco nižší. Nechám si vygenerovat třeba 30sekundové video složené z deseti záběrů a teď ho budu chtít upravovat, tak ta úprava už bude složitější. Takže spíše možná ten funkční postup do budoucna je něco, co je vidět i v nástroji Flow od Googlu, kde si člověk generuje ty několikasekundové záběry a přidává je do scény a sestavuje to a má díky tomu nad tím kontrolu.
Ptal jsem se na to, protože jsem si říkal, že třeba u klasických filmů ty záběry mohou být delší a pak se to stříhá. Mimochodem, myslíte, že třeba do budoucna se budou i filmy točit takhle, takovým způsobem? Nebo už se točí asi, předpokládám.
Rozhodně. Tam je jedna důležitá věc, co si myslím, že je potřeba říct u obsahu, který je nějaký příběhový. Ukazuje se, že i teď s těmi nástroji, které tady máme, je klíčový ten příběh, ta myšlenka, kterou ten tvůrce do toho dá, a ty dovednosti tvůrce, jak dokáže pracovat s kamerou, se světlem, s atmosférou, s rytmem. Ten, kdo tohle dokáže, kdo má nějakou filmovou průpravu, dokáže ty AI nástroje využít naplno. Ten, kdo tohle neumí, i když ty nástroje dokáží vygenerovat vesmírnou bitvu, tak to jeho video pravděpodobně nebude tak zajímavé, když do toho člověk nedá ten příběh.
Filmy už vznikají, hlavně krátké filmy. Myslím si, že na podzim bude v Praze Czech International AI Film Festival, druhý ročník. Vím, že minulý rok se do něj přihlásilo několik stovek filmů, i když zatím krátkých. Objevují se už filmy spíše ty kratší, řekněme mezi třemi a deseti minutami, které stojí za to zhlédnout, protože jsou řemeslně dobře zpracované. To, že je použita AI, tam příliš neruší. Ten příběh je tam dostatečně silný a ti lidé, kteří tyto filmy tvoří, je vidět, že mají zkušenost s filmovým vyprávěním a dokáží ty AI nástroje využít na maximum.
Jsem přesvědčen, že to, co teď vidíme u těch krátkých filmů, není důvod, aby se to neobjevovalo častěji. Bude vznikat více filmů, ať už krátkých nebo později i delších. Uvidíme více originálních zajímavých příběhů, na které by jinak třeba nebyly rozpočty na jejich ztvárnění. A zároveň uvidíme spoustu obsahu, který bude úplně o ničem.
Ještě mě napadá jedna věc. Takový handicap, který se občas zmiňuje v případě generovaných videí, je synchronizace řeči a toho, jak se otvírají ústa. To už se zlepšuje? Nebo jak se to nyní řeší?
Z mého pohledu tohle docela dobře rozčísnul Google s Veo 3, kde je možné generovat rovnou video se zvukem, včetně postav, které mluví. Tím, že Google to generuje všechno najednou, jak obraz, tak zvuk, tak ty postavy, mám zkušenost s tím, že ten projev těch postav je ze všech možných postupů takový nejpřirozenější, i když pořád velmi umělý. Ale je to, řekl bych, docela velký posun.
Do té doby se maximálně dalo vygenerovat video s postavou bez zvuku, postava tam otvírá ústa, něco říká, nějak se tváří, vygenerovat si zvlášť ten hlas a udělat nějaký lipsyncing. Jenže když se to takhle lepí na sebe, ten výraz té postavy nemusí úplně odpovídat tomu, co ta postava říká, na rozdíl od toho, kdy se to generuje přímo. Takže i tady je vidět nějaký posun.
Teď je otázka, co do budoucna bude ta správná strategie pro tohle. Ale myslím si, že dojdeme k něčemu takovému, kdy člověk bude podobně jako režisér na place dávat ty pokyny videogenerátoru a ten bude generovat video, včetně postavy, která se bude chovat a jednat tak, jak člověk zadá.
Zmínil jste před chvilkou, že věříte, že vznikne řada filmů, které budou třeba originální, ale nemohly by se reálně natočit, protože by na ně nebyly peníze. Naopak občas zaznívá, že AI ničí tu kreativitu. Že bere originalitu. Evidentně ten názor nesdílíte.
Já si myslím, a to možná bude trochu drzé, že se lidská kreativita přeceňuje. A to se považuji za relativně kreativního člověka. Vnímám tam často takový ten IKEA efekt – když si člověk sám postaví poličku, tak ta je lepší, než kdyby si ji koupil už postavenou. Myslím si, že to je u kreativity, u nápadů, co člověk vymyslí – ten nápad svůj má vždycky trochu raději než ten, co dostane od AI nástroje.
Podle mě je potřeba k těm nástrojům, ať už textové generátory, obrazové nebo videogenerátory, přistupovat tak, že je to nějaký tým. Prostě parťáci, kteří mají svůj pohled na svět vycházející z těch dat, na která jsou natrénovaní, kteří mají svůj způsob vyjadřování. Každý má nějakou svou speciální charakteristiku a člověk jim říká, co po nich chce. Buď dostane to, co chtěl, nebo dostane třeba na 80 %, jak si to představoval, a řekne si, jo, to je dobré, tohle vezmu, udělám nějaké úpravy, nebo to odmítne s tím, že si to udělá přes jiný model nebo jiným způsobem.
Podobně jako když vzniká nějaká kreativní spolupráce více lidí. Je tam jeden člověk, který tomu dodává myšlenku, vizi, nějakým způsobem to sestavuje, ale dostává vstupy od spousty dalších lidí. Obzvlášť u filmu si myslím, že to je velmi výrazné, protože množství lidí, kteří se na filmu podílejí, je velké. Každý do toho dává něco svého, někdo je řemeslně lepší nebo i kreativně schopnější, někdo zase méně. A ten režisér nebo ten člověk, který to sestavuje dohromady, vybírá ty kousky. Říká, jak to udělat třeba jinak. Není to tak, že by to všechno udělal a vymyslel režisér. Je to tak, že ten režisér pracuje s tím, co dostane od těch jednotlivých částí.
Myslím si, že AI nástroje nemusí nějak zabíjet kreativitu ve chvíli, kdy si člověk ponechá tu svou kreativitu nebo tu svou myšlenku, kterou chce sdělit, a ty AI nástroje využije jako parťáky, kteří mu dodávají tu potravu. Se kterou potom něco udělá a nějak to zabalí do toho, aby to ve výsledku komunikovalo jeho myšlenku, sdělení, představu. Nebude to úplně stoprocentní, ale to ani když člověk pracuje s dalšími lidmi. Nikdy nedostane stoprocentně svoji představu.
Pojďme teď na něco třeba konkrétnějšího. Pokud by chtěl někdo s AI videem začít, co byste mu poradil? Co by měl dělat, na co by se měl zaměřit?
Záleželo by to na tom, jestli už ten člověk má nějaké předchozí zkušenosti s videem nebo ne. Ale takový asi nejhladší vstup do světa AI videotvorby pro mě aktuálně představuje už několikrát zmiňovaný Google a jejich model Veo 3. Takže pokud si to někdo chce osahat, doporučil bych předplatit si aspoň třeba na měsíc Google AI Pro předplatné, které první měsíc je zdarma a které obsahuje několik kreditů na test, na generování těch videí. Promyslel bych si nějaký krátký nápad na krátké patnácti až třiceti sekundové video. Pomocí nějakého textového generátoru bych ho dále vypiloval, pomohl bych si sestavit pomocí zase textových generátorů klidně nějaké prompty pro text-to-video, čili pro vytváření videa z textového zadání. A pak bych v nástroji Flow od Googlu to tam doporučil zkoušet promptovat, seřadit vygenerované záběry za sebe do nějaké scény, vyexportovat. To by byl takový podle mě nejhladší vstup do toho.
Viděl jsem částečně váš webinář, kde jste zmiňoval i to, jaký je rozdíl mezi promptováním videa z textu nebo z obrazu. Jaký je mezi tím rozdíl?
Z textu je to jednodušší v tom, že člověk nemusí ladit ten vstupní obrázek. Nevýhoda je, že zase nemá dostatečnou kontrolu nad tím, jak vizuálně vypadá prostředí, postava a celkově ten styl toho záběru, protože je potřeba všechno to dostat do toho textu. Ve chvíli, kdy já potom budu promptovat stejnou postavu vícekrát v jiném záběru, byť budu mít stejný ten text, stejný popis, ta postava bude prostě vypadat jinak.
U image-to-video je to promptování jednodušší v tom, že já nemusím popisovat tu postavu do detailu, protože já už ji mám v tom obrázku, který jsem si předtím připravil. Takže ten popis, tu práci jsem si částečně rozdělil na to, že jsem nejdříve připravil obrázek, který vypadá vizuálně tak, jak potřebuji – postava, prostředí, vizuální styl. A to si potom jenom rozpohybuji nějakým třeba jednodušším promptem, ve kterém zadám jenom pohyb kamery nebo nějakou jednoduchou akci. Oproti tomu text-to-video, kde musím zadat úplně všechno – starý vousatý středověký muž uprostřed středověké vesnice a tak dále. Takže to by asi byl rozdíl.
Jaké jsou nejčastější chyby, které teď vidíte, že ti tvůrci dělají? Je tam něco, čeho by se mohli vyvarovat hned na začátku?
Je to už to zmiňované, že se snaží dát co nejvíce věcí a akcí do jednoho záběru. To je úplně nejčastější chyba, kterou lidé, kteří začínají s videem, dělají. Doporučil bych určitě zamyslet se nad tím, jak to rozkouskovat do více a kratších záběrů, aby se s tím dalo pracovat.
Druhá chyba je, že za tím není ta myšlenka. Jsou to jenom pěkné AI záběry, které ale nic moc neříkají. To bych určitě doporučil všem. Prostě zamyslet se nad tím, co chtějí tvořit předtím, než to začnou tvořit. To, že ten nástroj je jednoduše dostupný a během minuty mám video, neznamená, že to video bude dobré, i když technicky může vypadat dobře.
Zmiňoval jste ještě jeden postup. Já když bych měl nějakou úvodní myšlenku, chtěl bych něco vytvořit, můžu se samozřejmě třeba s ChatGPT nebo s jinou aplikací poradit, říct mu: rozpracujme tenhle scénář podle nějakých kritérií. Pracujete podobně nebo jak by se to dalo využít?
Určitě. Někdy si udělám video úplně podle sebe, je to flow a jde to samo. Často však, například videa, která jsem vytvářel nedávno s tím, jak by to vypadalo, kdyby Přemysl Oráč byl influencerem – měl jsem tuhle myšlenku a tu jsem rozpracovával pomocí AI. Myslím, že konkrétně jsem zkoušel Claude a Gemini. Claude byl takový kreativnější. Nechal jsem ho zamyslet se nad tím, jak by to mohlo vypadat, kdyby Přemysl Oráč byl influencer, používal mluvu mladých, sem tam nějaké anglické výrazy. Napsal mi k tomu nějaký scénář, nějaký takový prompt. Dostal jsem několik záběrů, kde bylo popsáno, co se tam děje, co tam ten člověk říká. Zároveň jsem v tom promptu měl asi nějaké časové omezení, že to bude sedm záběrů na 30 sekund, abych z toho nedostal něco příliš dlouhého.
Měl jsem několik těch záběrů, které jsem si potom upravil, zamyslel, vyměnil třeba ty přímé řeči, co tam jsou. Ty záběry jsem si pak dal do nějakého custom GPT, nebo spíše používám Gemini, takže do robota, kterého jsem si předpromptoval, aby mi vytvářel prompty pro Veo 3, aby vytvářel prompty ke všem záběrům, které mu dám. S tím, aby do každého toho promptu vždycky uvedl detailní popis té postavy, abych u toho postupu text-to-video aspoň nějaké míře zajistil, že ta postava bude vypadat podobně. Ty prompty jsem pak rovnou použil v tom generátoru a zase vybíral a ladil, když tam bylo něco, co nesedělo.
Mluvil jste o video s Přemyslem Oráčem, ona je to taková kratší série. Pokud se nepletu, to tohle video má necelou minutu. Jak dlouho trvá vytvořit takto dlouhý záběr nebo takto dlouhou sekvenci?
Zabralo to zhruba den, nějakých 6 až 8 hodin, a to myslím včetně té přípravy, o čem to bude. Nějakou část zabralo ladění scénáře, co tam asi bude, nějakou část samotné generování. To bylo zároveň nejdražší z toho, stálo to asi 2 500 korun. Výběr těch záběrů – když jsem viděl, že některé ty záběry nelze ani napotřetí vygenerovat tak, jak bych si představoval, tak jsem to třeba vyměnil nebo přeskočil. Pak jsem to dal do střihu a tam jsem dále ladil třeba dynamiku, protože u vtipných videí nebo obecně v těch videích je důležitá i ta dynamika, práce se střihem.
To možná bych ještě zmínil – taky častá chyba u lidí, kteří začínají s videem, že vezmou ty záběry tak, jak jsou, a dají je jenom za sebe. Ta rada by byla: nebojte se stříhat, zkrátit to, co jde, aby v tom daném záběru bylo úplně jen to nejnutnější, aby ten záběr skončil o něco dříve, než to člověku začne připadat dlouho. A většinou lidé, kteří nemají zkušenost se střihem, nechávají ty záběry příliš dlouhé. Takže zkracovat a stříhat, až už to dále nejde zkrátit.
Ty záběry ve střihu jsem spojoval, řešil jsem tu dynamiku, aby to nějak navazovalo, aby se člověk u toho nenudil, aby včas přestřihl vždycky do dalšího záběru. Několik z těch záběrů jsem potom vymazal, případně ještě i při tom střihu dogeneroval, což je obrovská výhoda práce s těmi AI nástroji. Člověk nemusí jít tím striktním, řekl bych, waterfall procesem, kdy je scénář, teď je natočeno, teď se stříhá, postprodukce. Já ve střihu se vracím zpátky k tomu, že natáčím v uvozovkách, dotáčím si další záběry, které mi tam zrovna chybí, dogeneruji si je.
Takže střih, nějaká lehká zvuková postprodukce a export. Titulky – dneska na sociální sítě člověk musí doplnit titulky, musí to udělat ve formátu 16:9 nebo 9:16, oříznout všechno, vymyslet tomu náhledový obrázek, popisek. Takže i tyhle věci kolem a administrativa zabere taky nějaký čas. Ale za ten den se tohle dá udělat.
A to video vzniklo ještě před tím modelem Veo 3?
Ne, už je to právě Veo 3.
Takže i ten hlas, který tam je, je také z Veo 3? Nebyla tam nějaká postprodukce přes nějakou jinou aplikaci?
Ne, je to všechno přímo Veo 3. On možná ještě u nás úplně nebyl dostupný, takže já jsem to dělal přes službu Replicate, která má API na různé modely. Tady jsem využil silné stránky toho modelu, kdy dokáže dělat realistická videa postav, které mluví něčím takovým jakoby strojeným stylem – to znamená reportáž, influencer do kamery. Kdybych potřeboval nějaké herectví, tak ještě by to vypadalo pateticky, ale tady pro tohle to dává smysl.
Pojďme k temnější straně AI a videa. Hodně se upozorňuje na rizika, která s pomocí AI vznikají fake videa, kdy podvodníci se snaží vytáhnout ze svých obětí různé peníze. Existuje vůbec nějaká šance, aby tomu se třeba dalo zamezit? Mluví se třeba o označování, ale nevěřím tomu, že by podvodníci videa označovali. Co s tím?
Myslím si, že to označování rozhodně by nebyla ta cesta, protože něco by bylo označeno, něco ne, a člověk by pak mohl mít nějakou falešnou jistotu – tohle není označené, tak to bude asi pravdivé. A to by bylo cesta ještě do větší záhuby. Jestli označovat, tak možná maximálně výrobci kamer dávat vodoznak do toho, že to dané video je reálné bez nějaké postprodukce, protože toho AI obsahu bude brzy mnohem víc než toho skutečného. Takže jestli něco označovat, tak skutečný obsah.
Každopádně nevidím tam žádnou cestu, jak to nějak regulovat. Podle mě obrana vůči tomu je mluvit o tom, edukovat, aby lidé věděli, co je aktuálně pomocí těch nástrojů možné. A když budou vědět, co je možné, věřím, že budou trochu více bdělí vůči tomu, aby tomu podléhali. Ale tady vidím spíše problém, který je potřeba, aby řešila společnost. Jasně, je to problém způsobený technologiemi, se kterým si ale společnost musí nějak poradit.
Zmínil jste, že toho AI video obsahu bude daleko víc. Obecně někde jste, myslím, zmiňoval, že v roce 2026 bude až možná až 90 procent.
Někde se to takhle uvádí.
Což není úplně optimistický výhled. Dobře… můžeme edukovat, ale do budoucna ta videa budou mnohem víc realističtější, než ta současná, když se někdo snažil neuměle naklonovat hlas nějakého politika nebo někoho významného a dát k neumělým záběrům. Skutečně nevidíte cestu, kterou by to šlo omezit?
Bohužel nevidím. Jasně, že to bude stále horší a stále větší množství lidí bude schopno na to naletět, stále to bude složitější rozpoznat. Ale já to vnímám tak, že džin je prostě vypuštěn z láhve a narvat ho tam zpátky nelze. Také to vnímání pravdy, co je skutečné, není skutečné, nalézt nějakou shodu na tom, co vidíme, a shodnout se na tom, co vidíme, je pravda, tak bude taky náročnější.
Nedávno jsem – teď už nevím, jestli to byl Petr Koubský v Deníku N nebo někdo jiný – četl, že společnost, nikoliv technologie, je tou hlavní výzvou do budoucna.
To je asi správná úvaha. Ale když jsem si připravoval ten rozhovor, říkal jsem si, jestli to není stejný postup jako u fotografie. Ta byla v určitou dobu médiem, kterému všichni věřili, což už dávno neplatí. Takže něco analogického se stane zřejmě i u videa, protože video bylo donedávna něco, co se říkalo, že se nedá v podstatě změnit. Evidentně to, co my vidíme, už nepůjde jiným způsobem ověřit.
Já to vnímám úplně stejně. Začalo to textem, potom texty na internetu a řetězové dopisy, teď fotografie, úpravy fotografií ve Photoshopu, a teď to máme i s tím videem. Jsem přesvědčen, že je potřeba vždycky, když člověk vidí takový obsah, uvědomit si, že i když si myslí, že má nějaké kritické myšlení a nějaký přehled, že i on se může stát terčem nějakého útoku nebo nějaké nepravdivé informace.
Já sám si připouštím, že můžu naletět něčemu, protože opravdu ta kvalita těch generovaných vytvářených věcí je vysoká. V té chvíli je potřeba vždycky, nebo aspoň moje taková pomůcka, vždycky se ptát: kdo stojí za vytvořením tohoto daného obsahu, ať už je to text, obrázek nebo video, a jaký pravděpodobně je cíl nebo motivace toho, kdo ten obsah vytvořil. Abych se zamyslel nad tím: Chce mě nějakým způsobem manipulovat? Vyvolává to ve mně nějaké emoce? Pokud to vyvolává negativní emoce, je to cílem toho člověka, že chtěl vyvolat negativní emoce? A pokud ano, proč je chtěl vyvolat? A jestli náhodou není něco, s čím nechci mít nic společného nebo na co já nechci naletět.
Takže zase to bude práce se sebou, s kritickým myšlením. Hlavně s tím zamyslet se nad tím, co konzumuji za obsah, a zamyslet se nad tím, co je za tím, protože ten text na povrchu nebo obrázek nebo video je jenom médium, které předává nějakou zprávu. Je nutné se více zamýšlet nad tím, co je ta zpráva pod tím médiem.
Zeptám se na to ještě trošku jinak. Platforma YouTube nedávno oznámila, že bude upřednostňovat taková ta ryze autorská videa a naopak bude potlačovat videa, která vznikají pomocí umělé inteligence. Jsou tam nějaké podmínky, takže to není úplně tak černobílé. Věříte tomu, že se to stane, když YouTube má primárně zájem vydělávat na reklamách?
Myslím si, že tady to může být chytré pozicování na trhu. Nemám to úplně ověřeno, ale když vezmu třeba příklad těch videí, která jsem vytvářel z těch starých pověstí českých, tak ta videa měla v součtu napříč sítěmi, nebo třeba minimálně to první mělo ke dvěma milionům zhlédnutí na Instagramu, na Facebooku a na TikToku – i když tam jsem to nedával já, protože TikTok nepoužívám. Mělo to stovky tisíc všude. Na YouTube to má, myslím, že pár tisíc maximálně, to znamená o několik řádů méně.
Je možné, že jestli YouTube říká, že se budou zaměřovat na ten autorský obsah, a už teď je vidět, že dostávají prostor videa, kde třeba klidně je člověk, který mluví na kameru, říká tam nějaká svá životní moudra a půl hodiny tam něco říká, tak je možné, že YouTube se bude pozicovat tímto směrem, aby se odlišil od těch ostatních platforem, které budou tím obsahem zahlceny.
Protože, a myslím si, že je to taky důležité – přijde ta doba, kdy člověk bude mít větší chuť vidět něco ještě autentičtějšího a syrovějšího než teď. Taková nějaká první vlna před pár lety možná byli ti influenceři, kdy ukazují nějakým způsobem sice stylizovaný, ale svůj nějaký běžný život do jisté míry autenticky, nedokonalou kamerou, nedokonalými záběry. A myslím si, že ta nedokonalost, ta autenticita bude nabývat na důležitosti, na zajímavosti, na významnosti. A může dávat smysl, že třeba YouTube se zaměří na to, že bude tou platformou, video platformou, kde člověk ví, že najde autentický obsah od autentických lidí a skrze to nějaké lidské spojení s dalším člověkem.
To je hezky optimistické. Já jsem trošku skeptik vzhledem k tomu, co se děje na TikToku a na jiných platformách.
Vždycky záleží na penězích, jasně. Facebook nebo Instagram se snaží vytřískat pozornost i toxickými všemi možnými věcmi, které využívají naše kognitivní nedostatky, tam je to jasné. Od Googlu, který si může dovolit razit svou cestu, možná by to i byznysově mohlo dávat smysl.
Ještě něco, co vnímám na YouTube – ten obsah, který tam je, se snaží déle udržet lidi u obrazovek. Na těch sociálních sítích to jsou do minuty a hotovo, ale u YouTube vévodí obsah, který má 10 až 20 minut. Lidé si to pouští třeba i na televizích. Je to alternativa nějakého Netflixu pro mnohé, protože i ta kvalita těch videí, co tam vytváří ti největší tvůrci, je vysoká. Dobře se na to kouká. Nedivil bych se, kdyby to bylo byznysově zajímavé.
Dobře. Pojďme si nebo pojďte se ještě na závěr trošku zavěštit. Ono je to samozřejmě u rychlosti inovací těch technologií poměrně složité, ale vždycky taková populární novinářská otázka je: co bude za tři a pět let? Vzhledem k tomu, že za posledních x měsíců udělaly ty aplikace obrovský skok, co bude následovat?
Je to oblíbená novinářská a neoblíbená otázka hostů, bych řekl, protože pak za těch pár let jim to někdo omlátí o hlavu.
Spíš se ptám – nemusíme se bavit o pět letech, protože to je složité, ale jsou tam určitě nějaké trendy dalšího vývoje. Co se třeba má ještě, v čem se ty aplikace můžou ještě dál zlepšovat?
Zamyslel bych se, kam to jde, co je někde v té budoucnosti a které kroky k tomu pravděpodobně povedou. Bavíme se o AI filmech, filmech kompletně vytvořených pomocí AI. Jsem přesvědčen, že někde v horizontu pár let tímto směrem jdeme. Maximální personalizace obsahu. Člověk přijde po celém dni zničený z práce a osobní asistent, který zná veškerý jeho kontext, celý život, protože má chytré brýle, které mu všechno natáčely, mu nabídne: „Měl jsi dneska těžký den. Ten mítink byl strašný. Šéf tě naštval, nechceš si dát zombie apokalypsu, kde jsi hlavní postava a všichni ostatní z kanceláře jsou zombíci?" A člověk řekne jo a koukne se na ten film. Takže věřím, že někam do toho jdeme.
Určitě se začne objevovat nějaká oblast, která bude něco mezi filmem a počítačovou hrou. Zase se vrátím k tomu modelu od Googlu, kde je možné procházet neexistujícím světem, dělat tam nějaké interakce. Když do tohoto světa přidáme nějaké AI entity, které tam budou fungovat, a jsem přesvědčen, že tam Google už nějaké entity má a učí na nich interakci v tom reálném světě, ale v tom digitálním, tak se můžeme do budoucna jednoduše ponořit do virtuálního světa, ve kterém budeme prožívat něco. Ten svět může být nějakým způsobem formovaný tak, abychom se my mohli jenom koukat a poskytne nám spíše filmovější zážitek, nebo může být volný, bude to spíše herní zážitek. Myslím si, že vznikne ještě něco mezi tím, že se to bude tak trochu prolínat.
Když bych se vrátil na tu opačnou stranu, kde jsme teď, co jsou ty nejbližší další kroky, kde si myslím, že ty nástroje budou mít nějaké další inovace nebo vyřešené problémy, které uvidíme. Tak si myslím, že to bude ta konzistence vzhledu postavy nebo více postav, vzhledu toho vizuálního, jak vypadají ty záběry a prostředí. Myslím si, že už se hodně blížíme k tomu, aby už to člověk vůbec nemusel řešit. Myslím si, že pod tím modelem NanoBanana od Googlu bude nějaký model světa, díky kterému oni dokáží velmi jednoduše dělat záběry z různých úhlů, postavy v jiných prostředích.
Takže myslím si, že ta konzistence. A zároveň bude do těch nástrojů pronikat to, aby člověk nemusel mít zkušenost s videem. To znamená, aby nějaký videogenerátor dokázal vygenerovat rovnou sérii záběrů, zamyslet se nad tím, jaká velikost záběrů má následovat, jestli po velkém celku nějaký velký detail na něco. Pravděpodobně uvidíme komplexnější nástroje, které dokáží zastoupit na jednom místě více těch expertiz, které jsou potřeba při tvorbě videoobsahu nebo filmu.
Myslím si, že to bude takový horizont možná pár měsíců, půl roku, rok, kde to, co by lidé dneska chtěli – že řeknou prompt: „Chci video o Přemyslovi Oráčovi, jak by to vypadalo, kdyby byl influencer“ – teď to člověk musí po těch jednotlivých krocích, ale technicky nic až tak nebrání tomu, aby to ten nástroj dostatečně pružný dokázal udělat.