Je to tak, když jsem se o API Opravidla zajímal, odpověděli mi, že rozhodnutí ještě nepadlo, a doufám, že zpřístupněno bude.
S integrací a zpětnou vazbou bych to neviděl tak negativně, záleží na provedení. Pokud by třeba ve Firefoxu existovala na kontrolovaná slova možnost "Přidat a nahlásit chybějící slovo", která by někde otevřela příslušný formulář, věřím, že odezva by byla...
A že lidi nic nedělají, není vždycky pravda: například tahle aktualizace Hunspellu je úctyhodný kus práce.
Díky za podnětnou debatu. :) K těm českým datům pro statistický kontext (a případně i strojové učení) – výborné jsou v tomhle korpusy českých textů na https://korpus.cz/
Tam si při korekturách textů ověřuji, jak je který výraz v praxi používaný, takže i automatizovaný nástroj by se blížil živému jazyku a ne jen pravidlům.
Súhlasím, že Grammarly frčí (a rozumne funguje), ale cielia na anglicky hovoriaci trh a ten je násobne väčší (a bonitnejší). Preto je tá slovenčina ešte horšia, lebo je ešte menej možných klientov. Zo slovanských jazykov má reálny potenciál na niečo komerčné polština (a v závese bola ruština, hoci tam tá bonita bola zlá). Grammarly majú tisíc zamestnancov a stále potrebujú funding. A to je ten problém pre takto malý trh sa to neoplatí robiť. A grammarly tvrdo pracuje na tom, aby im ostal ich branding (+ na rozdiel od opravidla, používa vaše dáta, takže prínos sú aj neplatiaci používatelia). Z čoho by malo opravidlo platiť ďalší vývoj, ak im tento rok skončilo financovanie?
Pre češtinu sa príručky použiť dajú na typografiu a pár štylistických vecí (typu dĺžka viet), ale inak sú prakticky nepoužiteľné. Nie preto, že by bolo zlé, ale kvôli tomu, že sú písané pre ľudí. Už zhoda podmetu s prísudkom je netriviálna úloha, ktorú za diplomku človek nevyrieši a v príručke sa obvykle hraničné prípady riešia len tak zbežne. Tieto zdroje by nepomohli. Pomohli by všetky tvary, ale to zvládne aj slovník z ispellu a ten je free. Pokrytie 90% textov je zdarma aj v majke, to by na PoC mohlo stačiť. Samotná licencia pre "plné" dáta nie je až taká drahá. Určite menej ako nová Dacia :D
Štatistický prístup má problém s tým, že je hrozne málo českých dát, ktoré by boli "určite" správne. Niečo by sa s tým asi dalo vymyslieť, ale jednoduché to nebude. Naviac, oni chcú ku každej chybe dávať zdôvodnenie, takže podiel ručnej (akademickej) práce tam je priveľký na rozumné škálovanie.
Čo je reálne urobiť a minimálne jeden startup sa na to snažil získať investíciu je typografický/štylistický korektor, ktorý očakáva, že text je gramaticky správne. O tom, ale viac hovoriť nemožem
Tohle je všechno pravda, ale je to racionalizace toho výsledného stavu. ;) To, co popisuju já, je snaha o zlepšení pravopisu celkově, která u mnoha uživatelů je. I v zahraničí to frčí, viz třeba služba Grammarly.
Pro češtinu by k tomu šly použít existující databáze např. té příručky (a zatímco před těmi lety jsem uvažoval jen trapnou statistickou analýzu, markovovy řetězce atd., dneska frčí neuronovky ;)). Ale k těmhle databázím se daňový poplatník nedostane, přestože je taky financoval. A tak ten potenciál leží ladem. Kdyby se to dalo jako open data, tak by se vidělo, jestli z toho něco vyleze nebo ne, zatímco takhle je to dopředu zakázané.
Jinak slovenština je chuťovka, tam se musím vždycky znovu podívat na pravidla, protože např. psaní přídavných jmen s číslem nebo jednotkami je úplně jinak než v češtině. :) V češtině se rozlišuje 10 % (10 procent) a 10% (10procentní), ve slovenštině pokud vím je to v obou případech 10 % a nazdar (ale když tam není uvedena jednotka, tak se tam pro změnu nacpe spojovník, 10-percentný roztok :)).
To by bol cieľ tak za národného obrodenia :) Reálne pravopis nikoho moc nezaujíma, pretože ten trh je malý na to, aby to riešenie uživil. A je jedno, či ako free/open-source (kde nebude dos ť vývojárov) alebo komerčne (kde nebude dosť zákazníkov). Pre slovenčinu s polovičným trhom to je ešte horšie. V ČR sa uživí aspoň Geneea, firmy na spracovanie reči a voice/chat boti.
Je to akademický projekt, takže má ukázať kde sú problémy a či sú riešiteľné. Odborné články, záverečné práce, alebo technické správy čiastkové problémy popisujú. Z akademickej stránky by som za "honění trika" považoval, ak by to malo potenciál na veľa citácií. Medzinárodných bude minimum.
Je to beta (a o projekte viem len o málo viac než verejnosť), takže ktovie čo ešte bude.
Ale ak to používatelia potrebujú v softvéri, tak by im to mal ten sw poskytnúť. Osobne, čakám, že Seznam do toho neinvestoval peniaze bez toho, aby to niekde mohol použiť. Hoci prechod z PoC na produkciu ich rozmerov nemusí byť jednoduchý. Očakávam, že ktokoľvek ďalší kto ponúkne peniaze/výmenu má reálnu šancu to integrovať.
Problém API (resp. hlbšej integrácie) je v tom, že zanikná ich "brand" (dá sa prežiť), ale hlavne prídu aj o to málo spätnej väzby, čo takto majú šancu získať. Tento problém poznám napr. z integrácie kontroly preklepov do LibreOffice, alebo Firefoxu. Ľudia nehlásia chyby, nepridávajú nové slová, ... a vlastne z toho nič nie je. A keďže si zvolili cestu, že ani užívateľské texty nepoužívajú na ďalší vývoj (lebo ochrana súkromia), tak práve tá spätná väzba je kľúčová pre zlepšovanie kvality (a peniaze na to, aby to prežilo).
Přesně tak. Pokud není cílem jen akademický projekt/honění trika, ale zlepšení psaní textů všude (jako např. autocorrect v mobilech), tak to musí být schopna používat např. jakákoliv webová aplikace, kde se vkládá text (např. diskuze na Lupě ;)).
A proto jsem ještě navíc navrhoval cestu open source, aby se to dalo volně nasadit kdekoliv a nemuselo se to volat z jednoho hostovaného místa a řešit traffic, ddos, ... Protože víme, jak to potom dopadá se státní správou, „řešení“ je pak takové, že limitují počty přístupů na IP a soft blacklisty, nebo cpou nesmyslnou captchu jako do iKatastru, protože lidi nedejbože ta data využívali automatizovaně...
Zdarma neznamená na tom sa asi zhodneme. Aj Google je zdarma.
Poskytovanie dát "akademickou" sférou je určite problém, ktorý by stál za to riešiť. Ale trochu paradoxne to je úloha skôr pre grantové agentúry (GAČR/TAČR), pretože ak to bude podmienka, tak sa príjemcovia prispôsobia. Dovtedy sa však po nich chce, aby si dofinancovali veci pomocou podobných projektov. A taký ÚJČ okrem vydávania slovníkov pre verejnosť, veľa iných komerčných šancí nemá.
Opravidlo je práve univerzitný projekt, takže hromada licenčných a iných podmienok je splnená omnoho jednoduchšie než pre externý subjekt. Úprimne, postaviť korektor už v tejto kvalite jednoznačne presahuje možnosti jednotlivca. Takže mám obavy, že váš projekt by síce mohol byť lepší v kontrole typografie a pod. ale gramatika by dopadla výrazne horšie.
API je zaujímavá otázka. Osobne nevidím dôvod, prečo by ho mali poskytovať. Sústredia sa na "bežných" ľudí. Integrácia s inými nástrojmi by im v podstate s ničím nepomohla, a takto ak sa dostanú k lepšiemu výsledku ho dokážu aspoň teoreticky predať, urobiť spinoff, .. ale to sa vraciame k poskytovaniu vedeckých výstupov.
Dobrý den, uvádím jen to, co mi z ÚJČ odpověděli, díky za upřesnění dalších informací. Ten nástroj byl navrhován jako veřejný, pro jakékoliv použití zdarma a open source. Žádnou licenci a už vůbec ne na komerční projekt jsem nechtěl, chtěl jsem otevřený přístup k datům, které jsme pomohli z daní zaplatit (data jazykové příručky na prirucka.ujc.cas.cz). Ale bylo řečeno, že to nelze, protože jsou tam další držitelé práv, a tak mají daňoví poplatníci smůlu a dostaneme tak akorát to, co se tam zpytlíkuje.
Takže asi tak po 10 letech, kdy jsem o to projevil zájem já a byl odmítnut, že to nelze, tu je najednou nástroj Opravidlo, který je zatím dost nepřesvědčivý, neposkytuje ani API (když pominu, že samotný backendový skript se z nějakého důvodu jmenuje api.cgi :D) atd. Přijde mi to jako velká škoda a promrhaný potenciál...
20. 7. 2022, 09:52 editováno autorem komentáře
Myslím, že pletiete niekoľko cez seba niekoľko vecí.
ÚJČ má práva na slovníky a ich elektronické verzie. Lenže to sú "dáta" pre ľudí, tvary slov z toho nezistíte.
ÚFAL (MFF UK) kedysi dávno vytvoril korektor pre Microsoft a má (mal) všetko k tomu, aby to mohol urobiť znovu.
FI MUNI má svoj vlastný nástroj (dostupný pod GPL v2), ktorý slúži na rýchle vyhľadávanie v slovníku všetkých tvarov - majka. Pre ňu sú voľne dostupné dáta, ktoré pokryjú cca 90% slov vo webových textoch. Žiadna komerčná firma v tom nemá podiel.
V čom podiel má aj niekto iný je synonymický slovník, pretože tam je spoluautor zakladateľ firmy Lingea. Či má ten podiel ako FO, alebo PO je v podstate jedno.
A samozrejme, vždy sme mali free slovník v ispell/aspell/hunspell.
Zrejme ste chceli licenciu na svoj komerčný projekt zadarmo a tú ste nedostali. Pretože pre akademické projekty to nikdy problém nebol.
„Seznam je také společně se třemi akademickými institucemi spolumajitelem.“
Před lety jsem ÚJČ při AV ČR jako daňový polatník kontaktoval přesně za tímhle účelem, aby se mohl vytvořit veřejný webový nástroj pro korektury, který by využil slovník z jazykové příručky. Bylo mi řečeno, že to není možné, že podíl na tom má MUNI a nějaká komerční firma, a tak data nemůžou poskytovat nikomu. Zajímavé, že najednou to jde...