Si říkám, že by se mohli zrevidovat pravidla pravopisu a zrušit např. "mě" vs "mně" a vybrat si jenom jedno z toho. Stejně to v mluvené řeči není slyšet a při čtení to ničemu moc nepomáhá. A školám by to ušetřilo pár hodin výuky, kde by mohli učit něco užitečnějšího :-D
Nevíte někdo, kde mám udělat "pull request" pravidel pravopisu? :-D
Normálně bych chyby hlásil pomocí "Našli jste v článku chybu?", ale tady je to potřeba veřejně.
Ve větě "Službu autoři z Ústavu českého jazyka Filozofické fakulty Masarykovy univerzity, Ústavu pro jazyk český Akademie věd ČR a Ústavu teoretické a komputační lingvistiky Univerzity Karlovy. " chybí sloveso a Opravidlo to nenajde.
Za touto (a další) větou chybí mezera a Opravidlo to nenajde.
"Tvůrci jí budou vylepšovat" - zde najde Opravidlo chybu "jí -> ji Chybné užití zájmena".
Opravidlo najde v článku 8 chyb, např. neznámé slovo "Opravidlo", správně jen jednu.
„Ono kritiku umí každý, ale co tedy přiložit ruku k díku“
Nebo k dílu. ;) A vy už jste přiložil, nějaké chyby nahlásil? Nebo jen kritizujete, když někdo jiný chyby hlásí, když k tomu v betaprovozu autoři sami vyzývají?
A možná si nejprve přečtěte diskuzi, do které přispíváte. Když jsem se před lety ptal na Akademii věd, kterou PLATÍME z daní, jestli může mít veřejnost přístup k databázi příručky, kterou na ÚJČ vybudovali, tak říkali rezolutně ne, protože si do toho přivzali komerční subjekty a ty na to mají práva. :-( Takže teď můžu akorát kritizovat. :P A pokud je vám málo uvádění chyb češtiny, které to nezvládá, tak i ta webová aplikace je zatím hodně beta. Občas ani nezachytí změnu vstupního textu a dál vpravo ukazuje staré chyby.
„Buďme za takovou službu zdarma rádi.“
Zdarma právě není, využívá databáze, na které jsme všichni přispěli, ale nemůžeme je volně používat. :/
„Moje žena je co se gramatiky taky něco jako Komeťáci Ultras“
Nejspíš si pletete gramatiku s pravopisem. Čímž se opět vracíme na začátek, jestli zrovna vy můžete být pro testování téhle aplikace přínosný, když to jiným vyčítáte. :D
Jak tak koukám, na místo radosti, že je u služba zabalené do elegantního a snadnou použitelného formátu pro nás normální lidi, co prostě v textu dělají chyby, se na tuhle zdarma službu vrhnou češtináři teroristi, co vlastně ale nic jiného neumí, a tak pro jistotu budou kritizovat případnou chybu v beta provozu služby.
Ono kritiku umí každý, ale co tedy přiložit ruku k díku.  Moje žena je co se gramatiky taky něco jako Komeťáci Ultras, ale tuhle službu by pochválila. Nemusím přece všechno vědět, ale když vím, kdo mi to opraví, je to fajn, nevypadám jak blbec a dělá to, co má a o to jde. A jestli je tam drobná chyba. No... když nejde o život. Buďme za takovou službu zdarma rádi.
Klidně mě ukamenujte.
„Seznam je také společně se třemi akademickými institucemi spolumajitelem.“
Před lety jsem ÚJČ při AV ČR jako daňový polatník kontaktoval přesně za tímhle účelem, aby se mohl vytvořit veřejný webový nástroj pro korektury, který by využil slovník z jazykové příručky. Bylo mi řečeno, že to není možné, že podíl na tom má MUNI a nějaká komerční firma, a tak data nemůžou poskytovat nikomu. Zajímavé, že najednou to jde...
Další chyba – pan Sedlák v článku píše jako obvykle špatně uvozovky (místo českých 99 dole a 66 nahoře tam má anglické 66 99 nahoře) a s tím si Opravidlo taky neporadí.
Ty první uvozovky tedy někdy zkouší opravit automaticky (a jde to vidět jen když člověk klikne na „Zobrazit automatické opravy“, jinak si toho ani nemusí všimnout, že se to ve vstupním poli změnilo automaticky, to se mi zdá mimořádně nešťastné). Ty uzavírací ale nechává anglické 99 nahoře, bez automatické opravy i bez upozornění.
Dobrý den, uvádím jen to, co mi z ÚJČ odpověděli, díky za upřesnění dalších informací. Ten nástroj byl navrhován jako veřejný, pro jakékoliv použití zdarma a open source. Žádnou licenci a už vůbec ne na komerční projekt jsem nechtěl, chtěl jsem otevřený přístup k datům, které jsme pomohli z daní zaplatit (data jazykové příručky na prirucka.ujc.cas.cz). Ale bylo řečeno, že to nelze, protože jsou tam další držitelé práv, a tak mají daňoví poplatníci smůlu a dostaneme tak akorát to, co se tam zpytlíkuje.
Takže asi tak po 10 letech, kdy jsem o to projevil zájem já a byl odmítnut, že to nelze, tu je najednou nástroj Opravidlo, který je zatím dost nepřesvědčivý, neposkytuje ani API (když pominu, že samotný backendový skript se z nějakého důvodu jmenuje api.cgi :D) atd. Přijde mi to jako velká škoda a promrhaný potenciál...
20. 7. 2022, 09:52 editováno autorem komentáře
No, ano. :) A tím se Opravidlo také chlubí a přitom jim to dobře nefunguje:
Viz https://www.opravidlo.cz/co-korektor-umi.html
Co korektor umí / Typografie
– psaní správných uvozovek na místo chybných
Nikomu nic nevyčítám, jen se mi zdá, že co se češtiny, pravopisu a věcí okolo týká vždy se v případě téhle či podobné služby pár historiků, kteří sice česky umějí, to ano, ale vlastně je to to jediní, co umí. Jinak jsou nepoužitelní.
Osobně tuhle i jiné služby používám, protože prostě dokonalý nejsem a pro produkt / služby, která živí mě, se mi tahle služba hodí a nevydám text s chybami.
Vážím si vzdělaných a inteligentních lidí, to bez pochyb, ale občas se prostě hysterikům okolo správného používání češtiny prostě musím smát, často umí vyrojit bouři ve sklenici vody. Člověk si řekne, kde na to berou čas a kdo je platí.
Ale je to jen můj názor „obyčejného trhače bavlny“, jak já říkám.
Přesně tak. Pokud není cílem jen akademický projekt/honění trika, ale zlepšení psaní textů všude (jako např. autocorrect v mobilech), tak to musí být schopna používat např. jakákoliv webová aplikace, kde se vkládá text (např. diskuze na Lupě ;)).
A proto jsem ještě navíc navrhoval cestu open source, aby se to dalo volně nasadit kdekoliv a nemuselo se to volat z jednoho hostovaného místa a řešit traffic, ddos, ... Protože víme, jak to potom dopadá se státní správou, „řešení“ je pak takové, že limitují počty přístupů na IP a soft blacklisty, nebo cpou nesmyslnou captchu jako do iKatastru, protože lidi nedejbože ta data využívali automatizovaně...
Tohle je všechno pravda, ale je to racionalizace toho výsledného stavu. ;) To, co popisuju já, je snaha o zlepšení pravopisu celkově, která u mnoha uživatelů je. I v zahraničí to frčí, viz třeba služba Grammarly.
Pro češtinu by k tomu šly použít existující databáze např. té příručky (a zatímco před těmi lety jsem uvažoval jen trapnou statistickou analýzu, markovovy řetězce atd., dneska frčí neuronovky ;)). Ale k těmhle databázím se daňový poplatník nedostane, přestože je taky financoval. A tak ten potenciál leží ladem. Kdyby se to dalo jako open data, tak by se vidělo, jestli z toho něco vyleze nebo ne, zatímco takhle je to dopředu zakázané.
Jinak slovenština je chuťovka, tam se musím vždycky znovu podívat na pravidla, protože např. psaní přídavných jmen s číslem nebo jednotkami je úplně jinak než v češtině. :) V češtině se rozlišuje 10 % (10 procent) a 10% (10procentní), ve slovenštině pokud vím je to v obou případech 10 % a nazdar (ale když tam není uvedena jednotka, tak se tam pro změnu nacpe spojovník, 10-percentný roztok :)).
Díky za podnětnou debatu. :) K těm českým datům pro statistický kontext (a případně i strojové učení) – výborné jsou v tomhle korpusy českých textů na https://korpus.cz/
Tam si při korekturách textů ověřuji, jak je který výraz v praxi používaný, takže i automatizovaný nástroj by se blížil živému jazyku a ne jen pravidlům.
Je to tak, když jsem se o API Opravidla zajímal, odpověděli mi, že rozhodnutí ještě nepadlo, a doufám, že zpřístupněno bude.
S integrací a zpětnou vazbou bych to neviděl tak negativně, záleží na provedení. Pokud by třeba ve Firefoxu existovala na kontrolovaná slova možnost "Přidat a nahlásit chybějící slovo", která by někde otevřela příslušný formulář, věřím, že odezva by byla...
A že lidi nic nedělají, není vždycky pravda: například tahle aktualizace Hunspellu je úctyhodný kus práce.
Myslím, že pletiete niekoľko cez seba niekoľko vecí.
ÚJČ má práva na slovníky a ich elektronické verzie. Lenže to sú "dáta" pre ľudí, tvary slov z toho nezistíte.
ÚFAL (MFF UK) kedysi dávno vytvoril korektor pre Microsoft a má (mal) všetko k tomu, aby to mohol urobiť znovu.
FI MUNI má svoj vlastný nástroj (dostupný pod GPL v2), ktorý slúži na rýchle vyhľadávanie v slovníku všetkých tvarov - majka. Pre ňu sú voľne dostupné dáta, ktoré pokryjú cca 90% slov vo webových textoch. Žiadna komerčná firma v tom nemá podiel.
V čom podiel má aj niekto iný je synonymický slovník, pretože tam je spoluautor zakladateľ firmy Lingea. Či má ten podiel ako FO, alebo PO je v podstate jedno.
A samozrejme, vždy sme mali free slovník v ispell/aspell/hunspell.
Zrejme ste chceli licenciu na svoj komerčný projekt zadarmo a tú ste nedostali. Pretože pre akademické projekty to nikdy problém nebol.
Co jsem se bavil se známými, kteří pracují jako copywriteři a většina z nich jsou vášniví čestináři, tak mi vysvětlovali, že Ústav pro jazyk Český je spíš takový pozorovatel. Pokud se nějaký jev začne v jazyce objevovat a ustálí se, tak ho do pravidel zapíší a vydají revizi. Není to tak, že by určovali “teď se to bude dělat tak a ne jinak”.
Zdarma neznamená na tom sa asi zhodneme. Aj Google je zdarma.
Poskytovanie dát "akademickou" sférou je určite problém, ktorý by stál za to riešiť. Ale trochu paradoxne to je úloha skôr pre grantové agentúry (GAČR/TAČR), pretože ak to bude podmienka, tak sa príjemcovia prispôsobia. Dovtedy sa však po nich chce, aby si dofinancovali veci pomocou podobných projektov. A taký ÚJČ okrem vydávania slovníkov pre verejnosť, veľa iných komerčných šancí nemá.
Opravidlo je práve univerzitný projekt, takže hromada licenčných a iných podmienok je splnená omnoho jednoduchšie než pre externý subjekt. Úprimne, postaviť korektor už v tejto kvalite jednoznačne presahuje možnosti jednotlivca. Takže mám obavy, že váš projekt by síce mohol byť lepší v kontrole typografie a pod. ale gramatika by dopadla výrazne horšie.
API je zaujímavá otázka. Osobne nevidím dôvod, prečo by ho mali poskytovať. Sústredia sa na "bežných" ľudí. Integrácia s inými nástrojmi by im v podstate s ničím nepomohla, a takto ak sa dostanú k lepšiemu výsledku ho dokážu aspoň teoreticky predať, urobiť spinoff, .. ale to sa vraciame k poskytovaniu vedeckých výstupov.
Je to beta (a o projekte viem len o málo viac než verejnosť), takže ktovie čo ešte bude.
Ale ak to používatelia potrebujú v softvéri, tak by im to mal ten sw poskytnúť. Osobne, čakám, že Seznam do toho neinvestoval peniaze bez toho, aby to niekde mohol použiť. Hoci prechod z PoC na produkciu ich rozmerov nemusí byť jednoduchý. Očakávam, že ktokoľvek ďalší kto ponúkne peniaze/výmenu má reálnu šancu to integrovať.
Problém API (resp. hlbšej integrácie) je v tom, že zanikná ich "brand" (dá sa prežiť), ale hlavne prídu aj o to málo spätnej väzby, čo takto majú šancu získať. Tento problém poznám napr. z integrácie kontroly preklepov do LibreOffice, alebo Firefoxu. Ľudia nehlásia chyby, nepridávajú nové slová, ... a vlastne z toho nič nie je. A keďže si zvolili cestu, že ani užívateľské texty nepoužívajú na ďalší vývoj (lebo ochrana súkromia), tak práve tá spätná väzba je kľúčová pre zlepšovanie kvality (a peniaze na to, aby to prežilo).
To by bol cieľ tak za národného obrodenia :) Reálne pravopis nikoho moc nezaujíma, pretože ten trh je malý na to, aby to riešenie uživil. A je jedno, či ako free/open-source (kde nebude dos ť vývojárov) alebo komerčne (kde nebude dosť zákazníkov). Pre slovenčinu s polovičným trhom to je ešte horšie. V ČR sa uživí aspoň Geneea, firmy na spracovanie reči a voice/chat boti.
Je to akademický projekt, takže má ukázať kde sú problémy a či sú riešiteľné. Odborné články, záverečné práce, alebo technické správy čiastkové problémy popisujú. Z akademickej stránky by som za "honění trika" považoval, ak by to malo potenciál na veľa citácií. Medzinárodných bude minimum.
Súhlasím, že Grammarly frčí (a rozumne funguje), ale cielia na anglicky hovoriaci trh a ten je násobne väčší (a bonitnejší). Preto je tá slovenčina ešte horšia, lebo je ešte menej možných klientov. Zo slovanských jazykov má reálny potenciál na niečo komerčné polština (a v závese bola ruština, hoci tam tá bonita bola zlá). Grammarly majú tisíc zamestnancov a stále potrebujú funding. A to je ten problém pre takto malý trh sa to neoplatí robiť. A grammarly tvrdo pracuje na tom, aby im ostal ich branding (+ na rozdiel od opravidla, používa vaše dáta, takže prínos sú aj neplatiaci používatelia). Z čoho by malo opravidlo platiť ďalší vývoj, ak im tento rok skončilo financovanie?
Pre češtinu sa príručky použiť dajú na typografiu a pár štylistických vecí (typu dĺžka viet), ale inak sú prakticky nepoužiteľné. Nie preto, že by bolo zlé, ale kvôli tomu, že sú písané pre ľudí. Už zhoda podmetu s prísudkom je netriviálna úloha, ktorú za diplomku človek nevyrieši a v príručke sa obvykle hraničné prípady riešia len tak zbežne. Tieto zdroje by nepomohli. Pomohli by všetky tvary, ale to zvládne aj slovník z ispellu a ten je free. Pokrytie 90% textov je zdarma aj v majke, to by na PoC mohlo stačiť. Samotná licencia pre "plné" dáta nie je až taká drahá. Určite menej ako nová Dacia :D
Štatistický prístup má problém s tým, že je hrozne málo českých dát, ktoré by boli "určite" správne. Niečo by sa s tým asi dalo vymyslieť, ale jednoduché to nebude. Naviac, oni chcú ku každej chybe dávať zdôvodnenie, takže podiel ručnej (akademickej) práce tam je priveľký na rozumné škálovanie.
Čo je reálne urobiť a minimálne jeden startup sa na to snažil získať investíciu je typografický/štylistický korektor, ktorý očakáva, že text je gramaticky správne. O tom, ale viac hovoriť nemožem