Vlákno názorů k článku Tohle je výsměch. Úplné uvolnění dat o jízdních řádech CHAPSem se zase nekoná od goldenfish - zdravim, upresnim par veci okolo PDF jizdnich radu. To, ze...

Článek je starý, nové názory již nelze přidávat.

2. 9. 2015 11:10

goldenfish

zdravim,

upresnim par veci okolo PDF jizdnich radu.

To, ze situace v tomto oboru neni dobra a ze se neexportuje nejake XML, tak budu souhlasit jako danovy poplatnik, ze to neni dobre.

Co se tyce PDF, tak lze zpracovavat i jinak nez pres OCR. Ono to PDF obsahuje texty a je mozne jej vytezovat. Souhlasim s tim, ze to je podstatne pracnejsi nez zpracovavat nejake XML nebo CSV.

Se zpracovanim a vytezovanim dat z PDF nemam problem. Mam na tom zalozenu zivnost a jsou zakaznici, kteri potrebuji strojove zpracovavat data, ktera nejsou ve formatu vhodnem pro zpracovani.

Asi nejvetsi problem vidim v nejake legalnosti zpracovani jizdnich radu. Zejmena pro komercni ucely.

Pokud nekdo chce zpracovavat data z PDF a z jizdnich radu, tak za asi 3 clovekomesice prace to dovedu napsat. Staci mi poslat email nebo zavolat. Komponenta na pokrocilejsi extrakci tabulkovych dat by se mi hodila.

Mala ukazka toho, jak jde rozebrat PDF soubor do nejakych bloku textu:
http://www.linuxsoft.cz/cd_clusters.png

Jenomze asi nejvetsi problem je, ze bych za to chtel penize a nevim, kdo by to chtel. Jediny, kdo snad poskytuje data z jiznich radu je Seznam.cz a ten nejake reseni (nepotvrzeny nazor, odhad) asi ma.

Zaroven toto je i reseni. Ne elegantni. Prijde mi to ale lepsi nez roky resit, ze nejsou data z jizdnich radu. Podle me je mnohdy lepsi nez se neceho dlouhodobe dozadovat, tak to rovnou vyresit.

Co se tyce spolehlivosti extrakce dat z PDF, tak ji lze vcelku dobre zajistit. Specielne jizdni rady nabizeji hodne moznosti, jak kontrolovat spravnost dat.

Jeste je tu take moznost, ze data z jiznich radu jsou v nejake databazi pro aplikace od CHAPS. Coz je podstatne levnejsi forma, jak ziskat data.

Podle me se nejvetsi problem jmenuje takto: "Komercní použití dat jízdního rádu pouze se svolením vydavatele."

gf
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 9. 2015 12:07

Marián Kyral

Nicméně v MAL archívech jsou pdf ve kterých je sken dokumentu. Tedy obrázek, žádný text. Tam to asi bez OCR nepůjde.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 9. 2015 12:11

Pavel (neregistrovaný)

PDF obsahuje texty, pokud je tam jeho tvůrce nechá. Je možné udělat i PDF, kde jsou jen obrázky textů.

Nevím, jaká je situace dnes, ale takhle se před lety vydávala Sbírka zákonů v PDF - obrázky textů bez těch textů. Dělali to tak schválně, aby ztížili práci firmám tvořícím informační systémy o zákonech.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 9. 2015 10:14

goldenfish

zdravim,

tak specielne sbirka zakonu, pokud mam dobre informace, jeste zamerne doplnovala chyby a preklepy do obsahu, aby slo identifikovat, ze to nekdo zkopiroval.

Zatim jsem narazil asi do 10 druhu ochran v PDF. Jmenovat konkretni ochrany moc nechci, at se pak z toho programovani nezblaznim a "nesypu" lecitin misto proteinu jako kulturisti.... To je asi na clanek na hysteria.sk .

Jeste pridam nejakou perlu: asi me v rijnu naprogramovat rozpoznani vysledneho tvaru z fragmentu tvaru. Pokud by to melo byt vice hardcore, tak zpracovani krivek a z toho vysledny tvar... Toto se snad ale nedockam.

gf
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 9. 2015 15:39

OH (neregistrovaný)

Sbírka zákonů si podobné "zjišťování" klidně mohla odpustit. Informace o zkopírování by pachatelům sbírky zákonů byla platná asi stejně, jako zmrzlému zimník. Autorský zákon totiž obsahuje §3.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 9. 2015 17:11

 Bystroushaak

Hustý, +1.

Aktuality

Policiie vyšetřuje kyberkriminalitu, podklady sbírala i v rozhlase. V případu zadržela dvě osoby

V Česku se i díky 3D tisku rozjela výroba ovladačů pro letecké simulátory

Čip z Česka se začal masově vyrábět. Tropic Square jako první na světě nemá tajnosti

Vlákno názorů k článku Tohle je výsměch. Úplné uvolnění dat o jízdních řádech CHAPSem se zase nekoná od goldenfish - zdravim, upresnim par veci okolo PDF jizdnich radu. To, ze...

Aktuality

Policiie vyšetřuje kyberkriminalitu, podklady sbírala i v rozhlase. V případu zadržela dvě osoby

V Česku se i díky 3D tisku rozjela výroba ovladačů pro letecké simulátory

Čip z Česka se začal masově vyrábět. Tropic Square jako první na světě nemá tajnosti

Dále u nás najdete

Průměrná mzda se utrhla ze řetězu. Vzroste i ta minimální