Věty jsou posbírány, začíná nahrávání. Mozilla Common Voice se učí česky

6. 1. 2020

Ilustrační obrázek - zatím nepoužívat! LUPA — Ilustrační obrázek

Projekt Mozilla Common Voice posbíral dostatečný počet vět, díky kterým se může rozjet tvorba dat pro rozpoznávání řeči v českém jazyce. Common Voice je otevřená aktivita Mozilly, díky které by každý zájemce měl získat možnost učit stroje automatické rozpoznávání řeči v jednotlivých jazycích. Data jsou k dispozici jako svobodné dílo.

Česká komunita od začátku roku 2018 hledala dva tisíce vět v našem jazyce. Nyní je nasbírané množství dostatečné, došlo k lokalizaci oficiální stránky a je možné začít sbírat zvukové nahrávky. V češtině jsou aktuálně nahrány dvě hodiny a sedmnáct minut a aktivních hlasů šest. Cílem je získat deset tisíc hodin dat.

„Nejjednodušší, co můžete udělat, je prostě zamířit na stránky projektu Common Voice a začít číst nahlas věty tam nabízené. Nestrachujte se přitom o kvalitu svého mikrofonu nebo hlučnost svého okolí. Nízká kvalita záznamu není vůbec na škodu, a v podstatě jediné podmínky, které musíte splňovat, je, že zadané věty přečtete správně, v nahrávce půjde alespoň nějak rozpoznat, co říkáte, a na pozadí nebude nikde slyšet hlas nějaké jiné osoby, u kterého by šlo také rozpoznat, co říká. Navíc se ani nebojte, že byste měli na nahrávání málo času; nahrání jedné sady vět Vám zabere v průměru přibližně 30 sekund,“ popisuje komunita na blogu Mozilly.

Vstoupit do diskuse

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

Jan Sedlák

Dlouholetý technologický novinář, kmenový redaktor portálu Lupa.cz. Kromě Lupy publikuje i na webu E15 a v zahraničních médiích.

Sdílet

Autor aktuality

Jan Sedlák

Anketa

Vláda potvrdila konec televizních poplatků. Je to správné rozhodnutí?

Věty jsou posbírány, začíná nahrávání. Mozilla Common Voice se učí česky

Sdílet

Autor aktuality

Jan Sedlák

Anketa

Vláda potvrdila konec televizních poplatků. Je to správné rozhodnutí?

Dále u nás najdete

Jak to bude s televizí přes anténu po roce 2030?

Pro stavbu optiky v malých obcích není příznivá situace

Jak jsme se „nechali podvést“ a útočníkům zrušili web

Bitcoinoví těžaři uzavřeli nejúspěšnější rok v historii

Vánoční žně skončily. Právě teď je čas na pořádný věrnostní program

Proč firmy v roce 2026 přecházejí na externí účetnictví?

Tvořte pro lidi, ne pro stroje, radí expert Googlu

Vstup Czechoslovak Group na burzu nabývá konkrétnější podoby

Fluorid sodný může přispívat k problémům s plodností

Knižní trh stojí na ženách a papíru. Prodává „spicy“ literatura

Vyzkoušejte osvědčený recept na špagety carbonara

Slevy na dani v roce 2025 a v roce 2026

Blíž k datové suverenitě. Přichází AWS European Sovereign Cloud

Změny v pohotovostech: Kde všude je zavřeli

Začneme platit v e-shopech kryptoměnami?

Nemluví o vás AI? Váš obchod skončil

Kdo všechno musí podat daňové přiznání k dani z příjmů?

Vrátí se éra zaklekávání? Finanční správa budí pod Babišem obavy

AdGuard Home ochrání vaši domácí síť i děti

Udržitelnost odtud potud. Čechům vadí balení telefonů bez nabíječky