Bias v natural language processingu? To je zrovna dost špatný příklad. Přidělování hypoték by bylo zajímavější.
1) Ukažte mi konkrétní příklad reálné situace, ve které nějaká "neférová zaujatost"* word embeddingů něco rozbíjí.
2) Ve spojení se slovy Miss, či sukně si běžný člověk také představí osobu ženského pohlaví. Podobně si běžný člověk dá do spojitosti košer a judaismus. Není to kvůli žádné "neférové zaujatosti"*, ale je to proto, že svět je prostě takový.
Pokud řekneme, že u Miss, či amerického prezidenta je stejná pravděpodobnost, že jde o muže, jako že jde o ženu, způsobíme tím, že algoritmus pro strojový překlad bude častěji chybovat. Občas si překladač prostě není jistý, zda jde o muže nebo ženu, a musí si tipnout. Pokud bude vědět, že v USA ženy nevládnou, bude mít pravdu častěji, než když to vědět nebude. Navíc se předejde komickým chybám, za které by se tomu překladači každý rád vysmál.
3) Jsou tu tři roviny.
Jedna rovina je, jaký bychom svět chtěli mít.
Druhá rovina je, jaký svět je.
Třetí rovina je, jak o tom světě mluvíme.
Systém pro strojový překlad by podle mě měl používat tu třetí rovinu - to, jak jazyk používáme.
Mějme 1 zprávu z novin. Vyskytuje se v ní osoba lékaře, jejíž pohlaví bychom z textu zpráv chtěli určit, protože tuhle informaci potřebujeme k překladu zprávy do češtiny.
Jelikož v textu žádné další informace nejsou, budeme si muset tipnout.
Odborníci na rovnost (první rovina) by řekli, že jde na 50% o muže a na 50% o ženu.
Zaměstnanci ministerstva zdravotnictví (druhá rovina) by řekli, že v ČR je více lékařek než lékařů, a tudíž jde pravděpodobně o ženu.
Lingvisti, kulturologové, a odborníci na machine learning (třetí rovina) by řekli, že v trénovací sadě je pojem lékař v 1000 zprávách, a v 900 z nich má mužské pohlaví. Tudíž je správně předpokládat, že jde o muže.
4) Důsledkem nesmyslného honu na biasy v NLP bude zavření trhu malým firmám, protože nikdo jiný než pár největších nemá možnost tenhle "problém" řešit, aniž by mu vycházeli muži čekající dítě, Missáci, či létající tučňáci.
5) Oproti tomu by si měl někdo posvítit na kritéria, na základě jakých banky (ne)přidělují hypotéky. Tam je dopad reálný. Jenže ta debata nebude o AI, ale o tom, jaká kritéria jsou etická, a jaká ne. (špatná škola, špatná čtvrť)
* vizte význam slova bias na Cambridge Dictionary
https://dictionary.cambridge.org/dictionary/english/bias
V pravidlech pro diskutující je uvedeno, že příspěvky nebudou mazány pouze pro názor. Můj příspěvek se neprovinil proti žádnému z bodů diskuse a přesto byl smazán. Nechcete si do pravidel pro diskutující rovnou přidat zákaz oponování progresivistickým demagogiím, než to dělat takhle skrytě?
V článku je mimo jiné pranýřován přístup Amazonu, kde je prodejce trestán a dostane se mu velmi vágního přibližného sdělení kterou kategorií přestupků se provinil a má alespoň formální možnost "appealu", který nemá moc šancí na úspěch. Na lupě je diskutující trestán bez jakéhokoliv sebevágnějšího sdělení, čím se provinil a možnost odvolání neexistuje vůbec. Není to paradoxní?
Nejen etika. Ona existuje snaha zakazovat/omezovat sběr určitých dat a jejich kombinování. Nejvíce kulturní, rasový, místní původ, pohlaví x kriminalita, vzdělání, náboženství. Například ve Francii, Švédsku statistiky kriminality na základě původu nejsou dohledatelné a aktivně se brání k takovým statistikám vůbec dospět. Když výjdou na světlo, nikoho kdo má oči otevřené výsledky nepřekvapí. Nebo v Německu nyní snaha to samé provádět ve vzdělávacím systému, kde se ukazuje, že žáci při výročním testování na závěr základní školní docházky (v obdobě testů PISA) například v Hamburku a Berlíně (vysoká míra migrantů, levice ve vedení institucí) nedosahují zdaleka ani průměrných výsledků v rámci SRN, zatímco země jako například Sasko, Bavorsko jsou na vrcholu. Prostě boří to jejich představu o rovnosti a tak takové statistiky zamezují vytvářet, a pak nejen stroje, ale ani lidé nemají tolik důležitých podkladů a argumentů, které by jim jejich dogmata mohla ohrozit.
V tomto roli hraje obava o naboření ideologických představ o světě a lidech. Etické by bylo přiznat si pravdu a snažit se ji uchopit, nikoli aktivně ji umlčovat.
V podstatě všechny podobné příklady s "biasem" který jen a pouze odráží realitu (jež se nelíbí jisté malé leč o to hlučnější skupině dobrotrusů) jsou fabulace. To ale pan Dočekal už tradičně ve svých textech neumí reflektovat.
Ono i u těch bank bude ten bias vycházet z nějakých statistických dat, byť lze souhlasit že jeho uplatnění může skutečně vést k poškození konkrétních osob (pokud tedy budeme pokládat hypotéku za dobro, což by mohlo být téma k samostatné diskusi - ale řekněme že hypotéka je rozhodně větší dobro, než spotřební úvěr od homecreditu).
L.
FBC... no boze, tak si Mark nevydela pristi rok 300 milionu ale jen 240 :o))) vazeni, az klesne na 25%, delal bych si hlavu, ze si nemuze koupit kazdy mesic novou jachtu a Bugatti Veyron, tem starymu z minulyho mesice uz dosel benzin v nadrzi... ale on sam je za vodou klidne na 1000 let kdyby tak dlouho tady moh smrdet. A takovy ty sratchky co ma kazdy tendence mlet na pocatku, ze to neni jen o penezich... at to nikdo ani nevyslovuje, s jidlem roste chut, vzdy a vsude.
Takže říkáš, že se někdo byl ochoten trmácet přes polovinu světa a naučit se jeden až dva cizí jazyky, jenom proto, aby dostal lepší sociální dávky?
Jinak jsi překroutil co jsem říkal a vybral jsi jenom to, co se hodí. Ty údaje jsou k ničemu veřejnosti, a státu sběr jiných údajů v kombinaci s lokální znalostí a selským rozumem stačí.
Jo, a zbytek toho co jsi napsal by si zasloužil rozvést a ozdrojovat. Zejména bych chtěl doložit existenci pozitivní diskriminace při odfiltrování rušivých proměnných.
Mikolov se tam vyjadřuje k otázce zneužitelnosti umělé inteligence, a říká, že je optimista a doufá, že lidstvo prostě zmoudří přestane se vraždit navzájem. Já ten výrok interpretuji tak, že říká, že ze zneužívání vědeckých vynálezů bychom neměli vinit vědu a vědce, kteří je vymysleli, ale lidstvo, které je zneužilo, aby se navzájem vraždilo.
Podle mě se vědec nemůže zcela zříci zodpovědnosti za věci, které objevil, a je spoluzodpovědný za věci, které pomáhal vyvinout a nasadit. Podobně je ale zodpovědná i firma, či vláda, která tu věc vyvinula, vyráběla, nebo využívala. Tím spíš, pokud vědce nechá něco vyvinout, ale potom mu zabraňuje kontrolovat, jak může být daná věc použita. Jak lze ale zabránit firmě nebo státu, aby se choval neeticky? Jak může Česká republika ve věku peněz donutit nadnárodních korporací (Facebook) chovat se morálně, pokud to tuto korporaci vyjde na stovky milionů? A kde je vlastně běžný manažer, politik, či vědec veden k etickému uvažování, a uvažování o dopadech jeho rozhodnutí? Jak dopadne běžný zaměstnanec, když prohlásí, že něco z etických důvodů neudělá?
V souvislosti s tím výrokem Mikolova jsem si vzpomněl na nedávný rozhovor s Tomášem Halíkem [1], Ten v něm prohlašuje, že vědecká racionalita a osvícenství nedokázalo udělat lidstvo lepším v lidské rovině. Dokonce tvrdí, že období příklonu k vědě a odklonu západní civilizace od náboženství vedlo k nejkrvavějšímu období lidstva. (Tady ale redaktor namítá, že při srovnání počtu mrtvých vůči počtu obyvatel planety to tak černě nevychází. Tím pádem se nabízí argument, že lidstvo je pouze větší, a tak jen stavíme větší armády.).
Halík přímo prohlašuje že jednostranná vědecká racionalita je nebezpečná bez morálních a spirituálních impulsů a pramenů moudrosti, uchovaných ve velkých světových náboženstvích. Sice bych neřekl, že je třeba ukotvovat morálku a moudrost zrovna do náboženství, ale tyhle dvě věci věda určitě potřebuje. Jen by mě zajímalo, proč tam Halík chce i tu spiritualitu, a jak si její pozici ve vědě představuje. Ta tam opravdu nemá co pohledávat.
Ještě bych zmínil, že před nedávnem jeden Číňan upravil lidský genom. Ty upravené děti už se narodily, a přežijí-li, budou svou mutaci genu přenášet na další generace. Zajímavá debata k tomu je tady. [2]
[2]
záznam debaty: https://www.youtube.com/watch?v=ZOCitNoDY94&fbclid=IwAR00WgaFYEhzQmneMGZk8Hxg0mbJ9eV7EuTjlgNbE-PcMLc8xtGP1Ihxs5g
odkazy na další materiály: https://www.facebook.com/events/1918632414911209/
Druhý důvod, který s tím částečně souvisí je, že tenhle typ informací prohloubí segregaci.
me ale osobne zajima jestli ne to pravda...
ono se to da taky otocit, jediny smysl elektronizace statni spravy je lepsi prace s daty, pro obcana to prinasi jen rizika (byt za ceny chvilkoveho komfortu)... pokud urcita data zakazu, zpochybnuji elektronizaci a statni spravu... jak tem lidem pomoci, kdyz ani nesmim zjistit, jestli je problem?
Údaje a data jsou velmi důležité, aby byly dostupné i veřejnosti. Já jsem uvedl ale i případy, kdy nejsou dostupné ani úřadům, ani odborné veřejnosti a dokonce se zakazuje je sbírat. Stejně jako mají být dostupné informace o zranitelnostech Huawei, o kterých se dnes tolik mluví, ale zatím je veřejnost nemohla poznat. Veřejnost jsou i lidé a instituce, které státem ani nic mít společného nemusí.
-
Ty případy, proč to dělali jsem uvedl. Například Kanada se k tomu vyjadřovala, Češi dostali vízovou povinnost a dokonce na pražském letišti neumožňovala v mnohých případech Romům odjet a chtěla po ČR, aby zasáhla proti "organizovanému cestování za účelem zatěžování sociálního systému".
Toto téma o datech nicméně nebudu rozvíjet směrem, zda v Kanadě je pozitivní diskriminace. Protože je velmi snadno dohledatelné, že je:
https://en.wikipedia.org/wiki/Visible_minority
https://en.wikipedia.org/wiki/Employment_equity_(Canada)
https://zpravy.aktualne.cz/canada-calls-on-czech-govt-to-stop-roma-refugees/r~i:article:634843/?redirected=1546454059
https://nationalpost.com/opinion/turns-out-there-is-discrimination-in-hiring-professors-but-not-against-minorities
https://business.financialpost.com/opinion/william-watson-whites-not-wanted-is-what-dalhousie-evidently-considers-progressive
https://www.thestar.com/news/immigration/2017/05/06/roma-say-theyre-being-barred-from-flights-to-canada.
Uhm, od 23:48 https://video.aktualne.cz/dvtv/vyviji-umelou-inteligenci-jsme-hodne-daleko-mozna-to-delame/r~fe04bdeef94911e8a0680cc47ab5f122/ je to vtipné celkom ako kidnapping song (Don't they know they're makin' people sad? How long can this go on?) z GLOW.
Problém je v zamenovani hrusek s jablky. Mezi slovy, záměry a činy je u lidí znacny rozdíl, který sledováním pouze jednoho takoveho kanalu, navic vetsinou bezstavove, tj. bez kontextu vede k nesmyslum, nedorozumeni. Kdyz nekdo rekne, ze "toho blba snad zabije", je to v tech 3 rovinach hodne odlišné. Tech kanalu, co by ai muselo sledovat je o dost vic, sledovanim prepsaneho textu se vetsina informace vypari. Uz jen potize a zmatky lidi s pouzivanim chatu nebo i telefonu...
Těmi lidmi se chceš zabývat už na základě pohledu na vzdělání a pracovní uplatnění, ke kterému obyvatelé nějakého gheta běžně směřují, a na to statistiky budou.
Na druhou stranu je otázka, zda vůbec náš stát stojí o to, aby lidé byli vzdělaní, a někam to dotáhli. Potřebujeme totiž míň gymnazistů, víc soustružníků, a je třeba zavést školné.
Jsou státy, které s takovým sběrem dat problém nemají, data používají k prevenci a žádná genocida zde neprobíhá. Takže ten argument neberu.
Navíc sám píšete o institutu romských asistentů. Na základě čeho vznikli a proč? Asi proto, že někdo nějak zjistil na základě objektivního pozorování a dat, že někde mají Romové problém a je třeba ho nějak řešit. Takže data, která by se podle vás sbírat neměla v podstatě pomohla ke vzniku romských asistentů. A mohla by efektivně pomoci v různých dalších oblastech bezpečnosti, vzdělávání, migrace atd.
-
Jinak Romové odcházeli do Kanady z čistého pragmatismu.
Za a) Kanady měla a vlastně pořád má velmi štědrý sociální systém podpory pro příchozí, kteří se do země dostanou a mají problém s integrací,
za b) od školního systému po zaměstnavatele (Employment equity) zde funguje (z mého pohledu silně nemorální a neetický) systém pozitivní diskriminace pro tzv. visible minorities (tedy všichni, kdo nejsou bílý!). Mimochodem za tím stojí hlavně ideologie a
za c) ve své době velmi benevolentní azylový systém.
Ve školách to pak v praxi funguje tak, že se hodnotí různě jen základě příslušnosti k rase, menšiny, pohlaví. Takže nejen, že v Kanadě používají a rozlišují lidi na základě rasy, ale ještě je hodnotí jinak a nebo dokonce vybírají instituce lidi podle barvy pleti. Když Kanada zjistila, že k nim nesmyslně utíkají z bezpečné země jako ČR byla a je lidé, tak zavedla pro české občany omezení. Mimochodem v USA praxi pozitivní diskriminace tento rok zrušili.
Takže ty data o kterých se bavíme má dokonce i Kanada, kam utíkali romské elity a ještě v zemi, kde probíhá diskriminace na základě barvy pleti - jenže jim to asi tolik nevadilo, protože je to diskriminace pozitivní. :)
3) Problém jsou zpětné vazby. Např. když bude vyhledávač napovídat na základě předpojatých embeddingů, bude tuto předpojatost dále podporovat a znásobovat. To není v zájmu ani uživatelů, ani vyhledávače (protože ten pak neví, jestli se vypozorovaným způsobem lidi chovají přirozeně nebo proto, že jim tak napověděl).
4) Největší hráči zveřejňují univerzální embeddingy (BERT od Googlu, Fastext Facebooku, ale také Conceptnet Numberbatch, který právě předpojatost řeší).
5) Na to si lidi poslední dobou právě svítí - viz best paper na posledním ICML (možná na to ale právě narážíte). AI a etika spolu souvisí.
Předně., Tohle nemá s původním tématem nic společného.
Druhak: důvody pro neshromažďování a nezveřejňování takových údajů jsou úplně někde jinde, než v politické korektnosti. On je to tvrdej pragmatismus. Když opomenu od extrémních případů typu Rwanda, jsou tu pořád dva důvody proč to nezveřejňovat.
První důvod je, že ty údaje reálně nepřinesou naprosto nic, jenom budou nějaký čas televize plné zavádějících zpráv. Tvrzení "černí víc kradou" totiž zní o dost jinak než "černí častěji žijí v ghetech a mají horší vzdělání".
Druhý důvod, který s tím částečně souvisí je, že tenhle typ informací prohloubí segregaci. Nevím, odkud na to koukáš, ale segregace opravdu není v tvůj prospěch, ani v prospěch dané země. Pokud se na někoho budou v zaměstnání dívat skrz prsty kvůli barvě kůže, opravdu to problémy s tou menšinou nevyřeší. Naopak to prohloubí problémy dané menšiny, protože i její vzdělaní a šikovní členové budou mít problém. Tím pádem dojde i k prohloubení problémů s danou menšinou, protože těm lidem, kteří ještě mají zájem, bereš šanci se ze své situace dostat, a nakonec i motivaci něco se sebou dělat.
Druhým důsledkem segregace může být i odchod elit, jako se to stalo u emigrace českých romů do Kanady. Třeba u nás ve městě dokázali strašně moc romští asistenti prevence kriminality. Jenže asistenti prevence kriminality nebudou, když každý schopný rom odejde do zahraničí... Podobně bych řekl, že příklady táhnou. Pokud se někdo dokáže z těžkých podmínek vypracovat, může být vzorem pro ostatní. Tím, že jsme přišli o několik tisíc romů, kteří do té Kanady odjeli (a tím pádem se asi byli schopni v Kanadě domluvit a uživit) jsme nakonec zatopili především sami sobě.