zdravim,
upresnim par veci okolo PDF jizdnich radu.
To, ze situace v tomto oboru neni dobra a ze se neexportuje nejake XML, tak budu souhlasit jako danovy poplatnik, ze to neni dobre.
Co se tyce PDF, tak lze zpracovavat i jinak nez pres OCR. Ono to PDF obsahuje texty a je mozne jej vytezovat. Souhlasim s tim, ze to je podstatne pracnejsi nez zpracovavat nejake XML nebo CSV.
Se zpracovanim a vytezovanim dat z PDF nemam problem. Mam na tom zalozenu zivnost a jsou zakaznici, kteri potrebuji strojove zpracovavat data, ktera nejsou ve formatu vhodnem pro zpracovani.
Asi nejvetsi problem vidim v nejake legalnosti zpracovani jizdnich radu. Zejmena pro komercni ucely.
Pokud nekdo chce zpracovavat data z PDF a z jizdnich radu, tak za asi 3 clovekomesice prace to dovedu napsat. Staci mi poslat email nebo zavolat. Komponenta na pokrocilejsi extrakci tabulkovych dat by se mi hodila.
Mala ukazka toho, jak jde rozebrat PDF soubor do nejakych bloku textu:
http://www.linuxsoft.cz/cd_clusters.png
Jenomze asi nejvetsi problem je, ze bych za to chtel penize a nevim, kdo by to chtel. Jediny, kdo snad poskytuje data z jiznich radu je Seznam.cz a ten nejake reseni (nepotvrzeny nazor, odhad) asi ma.
Zaroven toto je i reseni. Ne elegantni. Prijde mi to ale lepsi nez roky resit, ze nejsou data z jizdnich radu. Podle me je mnohdy lepsi nez se neceho dlouhodobe dozadovat, tak to rovnou vyresit.
Co se tyce spolehlivosti extrakce dat z PDF, tak ji lze vcelku dobre zajistit. Specielne jizdni rady nabizeji hodne moznosti, jak kontrolovat spravnost dat.
Jeste je tu take moznost, ze data z jiznich radu jsou v nejake databazi pro aplikace od CHAPS. Coz je podstatne levnejsi forma, jak ziskat data.
Podle me se nejvetsi problem jmenuje takto: "Komercní použití dat jízdního rádu pouze se svolením vydavatele."
gf
PDF obsahuje texty, pokud je tam jeho tvůrce nechá. Je možné udělat i PDF, kde jsou jen obrázky textů.
Nevím, jaká je situace dnes, ale takhle se před lety vydávala Sbírka zákonů v PDF - obrázky textů bez těch textů. Dělali to tak schválně, aby ztížili práci firmám tvořícím informační systémy o zákonech.
zdravim,
tak specielne sbirka zakonu, pokud mam dobre informace, jeste zamerne doplnovala chyby a preklepy do obsahu, aby slo identifikovat, ze to nekdo zkopiroval.
Zatim jsem narazil asi do 10 druhu ochran v PDF. Jmenovat konkretni ochrany moc nechci, at se pak z toho programovani nezblaznim a "nesypu" lecitin misto proteinu jako kulturisti.... To je asi na clanek na hysteria.sk .
Jeste pridam nejakou perlu: asi me v rijnu naprogramovat rozpoznani vysledneho tvaru z fragmentu tvaru. Pokud by to melo byt vice hardcore, tak zpracovani krivek a z toho vysledny tvar... Toto se snad ale nedockam.
gf