Jakub Mráček: Jak naučit lidi správně strukturovat data?

27. 11. 2013
Doba čtení: 3 minuty

Sdílet

Autor: certificates.theodi.org
Vytvářet pro otevřená data standardy a metodiky je možná slepá ulička. Klíč může být v motivaci uživatele strukturovat data pomocí zajímavé aplikace nebo certifikátu.

Přes sedm stovek lidí, kteří se nedávno zúčastnili výroční Open Knowledge Conference v Ženevě, si z akce jako kouli u nohy odváželi palčivou otázku všech, kteří se otevřenými daty zabývají: Jak data standardizovat? A jak sladit standardy už existující? 

V poslední době jsme totiž svědky rostoucího počtu datasetů, které jsou teoreticky otevřené; jejich struktura (“datový model”) je však natolik svébytná, že jejich opětovné použití vyžaduje značného úsilí. Systematičtí ajťáci vědí, jak na to: nařídíme společné standardy. Už z rychlého průzkumu na webu je zřejmé, že rostoucí počet pokusů o dobrý standard nevede k tomu, aby ho používali všichni. Jak tedy zajistit, aby lidé produkovali “správně” strukturovaná data? 

Výmluvnou odpověď možná najdeme v oblasti značně vzdálené, totiž ve vzdělávání. Jak naučit děti správné výslovnosti? Ve škole k tomu přistupujeme tak, že dětem předhazujeme standard: pouštíme jim rodilé mluvčí ze záznamu, díváme se na americké seriály v původním znění nebo je donekonečna opravujeme, pokud něco vysloví špatně. 

Indický inovátor Sugata Mitra přišel s jiným konceptem: Rozdal indickým dětem s chatrnou angličtinou tablety s aplikací na rozeznávání hlasu a řekl jim: “Mluvte do téhle věci tak dlouho, dokud to nebude psát přesně to, co chcete.” Výsledek? Řada z “jeho” žáků získala v indických slumech vysněnou práci: operátora call centra pro britský a americký trh, kam denně volají miliony rodilých mluvčí, a to aniž by někdo z nich poznal, že nemluví se svým krajanem. 

Poučen Dr. Mitrou, upravím svou úvodní otázku: Jak naučit lidi správně strukturovat data? Dejme jim aplikaci, ve které budou tak dlouho ladit svá data, dokud z toho nevyleze přesně to, co chtějí. Nikdo nebude číst dlouhé standardy, ale všichni se budou snažit, aby z jejich dat vylezlo právě to, co očekávají. 

Výborným příkladem z produkce Laboratoře Open Knowledge Foundation je TimeMapper. Chcete svá data vizualizovat pomocí časové osy a zároveň na mapě? Pak je budete muset trochu upravit. Funguje to výborně, sám jsem laděním dat strávil skoro půl hodiny, aby “aplikace byla konečně spokojená”. 

Podobně pracuje Open Data Certificate od nedávno zřízeného (a štědře dotovaného) institutu. Chcete ověřit, jestli jsou vaše data skutečně otevřená? Interaktivní formulář vás dovede k tomu, že řadu metadat o vašem datasetu doplníte nebo opravíte. Nejde jen o motivaci certifikátem: služba funguje jako rychlá zpětná vazba a manuál zároveň; vedle toho vlastně vzniká i zajímavý katalog dat. 

MM Influenceři

Pokud se zmíněné nadějné pokusy uchytí, jako standard se neprosadí to, co do detailu dotáhla skupinka géniů, ale to, co nejlépe motivovalo masového uživatele tento standard použít. Možná to teoretikům zvlášť pod vousy nepůjde, ale o to tu koneckonců nejde – standard potřebujeme proto, abychom se navzájem “domluvili”, a na to stačí, aby právě jeden používalo co nejvíce lidí (konečně, málokterý komunikační standard byl nejlepší a nejefektivnější možný). Výmluvný je příklad Morseovy abecedy: přestože je její efektivita asi na 85 % oproti optimu (v češtině na 83 %) a přestože měla ve své době řadu konkurentů, díky jednoduchosti se dokázala snadno prosadit.

Zdá se mi to jako inspirativní cesta: Když přestanou fungovat pravidla, je třeba uživatele motivovat jinak. Laboratoř Open Knowledge Foundation to zkouší už dlouho: před rokem spustila Annotator pro metadata nad texty. Až budeme hledat cesty, jak dojít k jisté konvergenci (nejen u otevřených dat), nebude od věci si na zmíněné projekty vzpomenout.

Autor článku

Autor pracuje pro Fond Otakara Motejla jako advokát otevřených dat. Pro Úřad Vlády ČR pomáhal připravit související politiky a stojí za rozcestníkem NášStát.cz. Najdete ho na Twitteru.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).