Např. Ústav pro jazyk český při Akademii věd financovaný z našich daní sedí na českém jazykovém korpusu a slovníku češtiny, který velmi omezeně zpřístupňují veřejnosti (např. http://prirucka.ujc.cas.cz/). Dal by se skvěle využít např. pro pokročilé online kontroly pravopisu, zlepšení vyhledávání atd. Ale na dotazy o zpřístupnění této databáze veřejnosti nebo spolupráci s komerčními subjekty reagují odmítavě, a to proto, že už prý s nějakým konkrétním komerčním subjektem exkluzivně pracují... Pokud by se Seznam.cz "nudil", mohl by svou pozornost zaměřit i sem, z takových dat by mohlo profitovat více subjektů i nadšených amatérů se svými projekty (viz třeba známý skript na doplňování diakritiky Ohákování http://nlp.fi.muni.cz/cz_accent/)
český národní korpus má na starosti Ústav českého národního korpusu FF UK http://ucnk.ff.cuni.cz/
existují i další české korpusy, třeba http://trac.sketchengine.co.uk/wiki/Corpora/czTenTen2
předpokládám, že pro kontrolu pravopisu apod. byste měl zájem spíš o projekt ajka/majka http://nlp.fi.muni.cz/projekty/nlp-portal/go.py?tool=1 http://nlp.fi.muni.cz/projekty/ajka/
ten nlpportal? to se nějak upravovalo pro noc vědců v pátek, tak je možná něco rozbité
v podstatě je to lepší rozhraní k http://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0
Jo, jede, už i ten první skript když dám kratší text. Koukám, že každý projekt si řeší svůj vlastní systém tagování/kategorií (ČNK "N", NLP "k1"), není to škoda? :) Rozpoznávání správného tvaru má taky nějak fungovat v kontextu věty? Zkoušel jsme tvoje ("tak je možná něco rozbité") a u "je" háže první variantu vždycky zájmeno, sloveso až v alternativách.
ten brněnský systém je samozřejmě lepší :D (mám pocit, že se mezi nimi dá snadno převádět)
morfologická analýza funguje jen na slovo a nabídne všechny varianty bez ohledu na kontext, nad tím je potom úroveň, která se snaží vybrat ten správný druh (http://nlp.fi.muni.cz/projekty/rule_ind/index.cgi)
a další úroveň je syntaktická analýza vztahů ve větě
https://nlp.fi.muni.cz/web2/cgi-bin/index.py?page=main_topics&language=cs
Tak ta syntaktická analýza už je docela pěkná, většinou některý z prvních stromů se i trefí :). S tím by mě bavilo si pohrát pro tvorbu ultimátního korektorského nástroje... jen kdyby to někdo zpřístupnil i soukromníkům mimo akademickou sféru (a nemyslím tím jen online dotazování vůči serveru s korpusem, to není dostatečně pružné pro vyhodnocování variant)
něco je úplně volně, např.
http://nlp.fi.muni.cz/trac/set/wiki/download
http://nlp.fi.muni.cz/ma/free.html
a většinou se dá nějak dohodnout, nemusí jít nutně o peníze :)