Co vyplivne fact checker by mě zajímalo.
Pár poznámek ode mě.
Nekalibrované měření je vždy podezřelé tak nějak z principu.
45 cyklů je dost, ale záleží na metodě a protokolu, zpravidla se to hodí k detekci byť jediné hledané molekuly s příslušnou sekvencí ve vzorku. Neříká to nic o množství na počátku, ale pokud tam nic není na začátku, tak se nic nenamnoží ani po sto cyklech (byť je tu občas problém s podobnými sekvencemi).
Až 100 % je klasická reklamština a čistě teoreticky i jedno promile je v jednom z tisíci případů “až” 100 % :)
„protože experti zjistili, že experti měří šum pozadí a říkají tomu nakažený“ - tohle moc dekódovat neumím.
Jak si systém poradí s texty obsahující slova jako, domníváme se, zřejmě, pravděpodobně? Tedy vědomě nedeklarující nějakou skutečnost, ale klidně i fikci.
Další část prohlášení je závislá na jednom konkrétní zdroji informace, jako dle SOHR, dle politika XY, což v lepším případě jsou informace ve světle, kde je skutečnost podána pouze pohledem jedné strany a může být dost manipulativní a pokud je lživá, tak ověření může trvat několik dní či měsíců. U válečných konfliktů je záměrná lež součást boje, tak to je pak jakýkoli fact-ckecker jen nástrojem k obhájení klidně i záměrné lži.
Dobrý den pane Drchal,
Mohl byste zkusit prohnat následující tvrzení Vaším systémem, prosím? Jakožto absolvent Kybernetiky a Měření, jsem si udělal poměrně odborné ověření faktů, takže znám odpověd, která je pravda. To tvrzení je:
"Nekalibrovanné měření PCR s přehnanou citlivostí (ct=45) davá až 100 procent falesně pozitivních, protože experti zjistili, že experti měří šum pozadí a říkají tomu nakažený"
Děkuji
Přeji Pěkný den
Dobrý den,
náš fact-checker důvěryhodnost jednotlivých zdrojů nijak neřeší, o tu se musí postarat jeho provozovatel. Kvalita ověřování je dána kvalitou textů, vůči kterým ověřujeme (a samozřejmě i kvalitou anotací a kvalitou námi učených neuronových modelů). To, že naše řešení stavíme na rozsáhlé databázi článků ČTK, je záměrné - ČTK se při ověřování svých zpráv drží dost přísných pravidel (viz např. kodex).
S pozdravem
Honza Drchal (AIC, FEL ČVUT)
Dobrý den,
systém není založen na ověřování nějaké "obecné" pravdy. Ověřování probíhá vždy vůči nějaké databázi textů. Aktuálně jej testujeme nad texty ČTK, ale není problém jej rozběhnout třeba nad texty Vesmirni-lide.cz .
Je důležité si uvědomit, že výstupem není jen klasifikace (potvrzeno, vyvráceno, nedostatek informaci), ale i seznam relevantních textů. Nepředpokládáme, že bychom v dohledné době byli schopni dokonale "nálepkovat" tvrzení - jde spíše o to, abychom novinářům dodali nástroj, který vyhledá rozumně velký objem relevantních textů a napoví, kam se do nich "kouknout".
S pozdravem,
Honza Drchal (AIC, FEL ČVUT)
Dobrý den,
to je dobrý postřeh. Data která máme aktuálně k dispozici neobsahují informace o zavádějících či účelových tvrzeních. Na toto téma se chceme v blízké budoucnosti hodně zaměřit. Na podzim plánujeme rozjet další kolečko anotací ve spolupráci se studenty žurnalistiky. Je dost pravděpodobné, že zahrneme nové kategorie právě tohoto typu.
S pozdravem
Honza Drchal (AIC, FEL ČVUT)
Tak urcite to nechci podcenovat, ano word2vec je urcite velice dobry pocin i dalsi projekty jsou velmi kvalitni. I kdyz maji svoje chyby.
Co jsem tim chtel rict je, ze toto neni jednoduchy projekt a vyzaduje dlouhodobejsi pristup. Neda se to vyresit za pul roku, ani za rok. Nechci to rozhodne shazovat, vim, ze JŠ udelal pro to, aby se studenti realizovali v realnych problemech hodne. Jenom jde o to, zda a v jake kvalite to bude kdy bude hotove.
glorifikovat velké společnosti se může vymstít. Např. na strojovém porozumění textu a strojových překladech v Googlu, Facebooku, Microsoftu pracoval český student (v té době) Tomáš Mikolov, který je i autorem např. knihoven word2vec, fastText. Od loňska se objevuje v týmu CIIRC pod ČVUT. Nepodceňoval bych ty "jednotky studentů" :).
Zrovna právě naše ČVUT na tomhle poli dělá hodně práce na evropském měřítku, má řadu velice schopných lidí a spolupracuje s komerčními firmami, za sebou úspěšné projekty. A to u nás nejsou jediní, kteří se tomu hodně věnují a mají za sebou historii.
„Něco jiného to znamená třeba pro Manipulátoři.cz, kteří ověřují fakta ručně, a se kterými budeme spolupracovat v rámci jiného projektu.“
Tak to si vybrali ty pravé.
Mezi desinformátory je málo lhářů jako takových. Občas jim faktická lež uklouzne, ale většinou relativizují nebo vytrhávají věci z kontextu.
A třeba ty dálnice, nepřibylo nejvíc km změnou silnic pro motorová vozidla na dálnice? Není to stavba, ale stačí vhodně zvolit slova a je to pravdivé, byť účelové tvrzení.
No, toho bych se nebal. Ono spise jde o to, kdy je to prestane bavit. Jako zapis do CV to je dobre a je to zcela jiste opravdu zajimava prace. Ale strojove porozumeni psanemu textu je tak komplikovane tema, ze na to nestaci jednotky studentu. Na to musi byt tymy. A kdyz se to dodnes nepovedlo Googlu, ani Facebooku, kteri maji penize na to, aby takovy vyvoj financovali....
Casem se vam z toho vyloupne spoustu malych "nepresnosti" se kteryma si modely neumi poradit, ale jsou pak v celku dulezite a ty musi postupne nekdo resit. A to vam nafoukne backlog takovym zpusobem, ze nebudete vedet co drive. Vysledek nejaky bude, ovsem jestli to bude v realnem svete pouzitelne, to nikdo nedokaze rict.