A mezitím, co se grafy očišťují a soubory redukují, to snad aby budoucí průzkumy, eh, chci napsat návody k volbám, zůstaly i do budoucna nepoužitelnými hausnumery, jak je tomu spolehlivě doposud, politická stoka zůstává neočištěná a zbytnělé státní škodící instituce neredukované - to pro tu záruku a jistotu, aby vstříc podobným výpraskům kráčeli v budoucnu další a další.
A důvod je stále tentýž, redukce neredukce. státem placení kašpárci si odmítají připustit, že jejich svinstva, podrazy a zlodějiny lidé pamatují, sami na sobě je vnímají, nezapomínají, jakkoliv by kašpárci moc rádi. A tak se léta čistí a redukuje tam, kde je to nejméně potřeba. Tím pádem holt černá práce čištění a redukce nakonec zbyde na voliče. Zase a znova, a tudíž opakovaně.
A žádný strach, naštěstí vůbec nezáleží na tom, zda státem placení křiváci něco pochopí, nebo dokonce uznají, nedejbože sami očistí či zbytnělé zredukují, nebo napraví. Nikoliv. Čím tupěji se ke vzkazu od voličů postaví, tím lépe pro další očistu a redukci.
A než zase přijde další kolo mediálních masáží a snahy o oblbování, nezbývá, než leštit grafy a krájet soubory. Třeba jako téma na zamluvení skutečnosti, že minulá čísla podivně nevyšla.
Díky za příspěvek. A ano... máte pravdu. Sám jsem to při analýze viděl. A pokusím se data poskytnout politickým stranám. Nezávisle na tom, jak se tady máme je na sociálních cítit frustrace a zklamání. U některých stran méně, u některých více. Jestli něco dělají sociální sítě dobře, pak je to to, že lidem věci připomínají.
Výzkum byl trochu zaměřený na odhalení přímých manipulací - ale výsledek byl víceméně negativní, zatímco zklamání a frustrace byla autentická a nepředstíraná.
Podobne studie povazuji uz mnoho let za matouci. Jednak stroj neni schopen odlisit ironii, sarkasmus a podobne styly lidske verbalni komunikace, pricemz lidsky hodnotitel ma jen omezeny radius. Za druhe, kazdy prispevek ma jiny kontext, potencialni ctenare a tim i vysledny impakt. Nejde to scitat jako hrusky a jablka, musi se na to prinejmensim pres Bayese.
Z dynamiky grafu vyplyva jen to, co lze ocekavat v okoli terminu voleb - obracenou krivku by snad nikdo neocekaval.
1. Současné hodnocení je mixem automatiky a ručního hodnocení. Zmínky třídíme a přetypováváme nejběžnější případy.
2. Pracujeme nad systémem hintů pro neuronové sítě - ano i pro rozlišení ironie a sarkazmu. Pracujeme nad training sety. Experimentujeme.
3. Náročné projekty řešíme 100% ručním hodnocením s možným dvojitým hodnocením (sledování odlišného hodnocení).
P.S: právě, že křivky jsou u různých subjektů rozdílné. Dnes jsme lepší než před rokem, zíra to bude ještě lepší. Ty názory na síti jsou. Nesou konkrétní zprávy. Jsou obrazem reality. Dnes na něco nemáme správné algoritmy, zítra budou lepší, pozítří bude analýza standardem. Ve své práci vidím stovky zmínek a na leccos začínám měnit názor.
Zadna neuronova sit soucasne konstrukce nedokaze rozpoznat ironii a sarkasmus od bezneho textu. Pokud necim takovym disponujete, povedl se vam svetovy prulom a jedna se o zasadni objev celosvetoveho vyznamu. Toto myslim bez ironie, coz by neuronova sit rozponat nedokazala.
V cem jsou ty krivky jine? Ja vidim caru nahoru a pak odezneni smerem dolu.
Chjo, pan se vas zeptal na konkretni otazku a vy jste na to zareagoval jeste hure nez politik - jako Jehovista.
Nuze, jak porazite molochy typu Alpha a dalsi, kdyz uz zacinate experimentalne (ale dle sebejistoty uspesne) skoro-nasazovat ironii a sarkazmus? Nebo byl snad bod 2. vygenerovan sarkasticko-ironistickou masinkou (nekde na R3.14 - detect that you machine whore!)?
So I will only have Good MANSIONS about you from now on. You street curves...
> Zadna neuronova sit soucasne konstrukce nedokaze rozpoznat ironii a sarkasmus od bezneho textu. Pokud necim takovym disponujete, povedl se vam svetovy prulom a jedna se o zasadni objev celosvetoveho vyznamu.
Mýlíte se. Nedokáže to sice 100% (to ani člověk), ale dosahuje cca 0.8 F-measure / accuracy bez kontextu a přes 0.9 s kontextem. Viz loňský COLING:
ZHANG, Meishan; ZHANG, Yue; FU, Guohong. Tweet Sarcasm Detection Using Deep Neural Network. In: COLING. 2016. p. 2449-2460.
případně task na SemEval2018: https://competitions.codalab.org/competitions/17468 obsahuje spoustu state-of-the-art referencí.
Zisk proti bezkontext Riloff je nejvys tak 5%, coz je zajimave spise z teoretickeho pohledu. Jejich trenovani na #sarcasm (odst. 6.1.1), ktere deklaruje sarkasmus tretim stranam, neodpovida realne situaci, coz plati i pro pouzivany dataset. Od autoru ocenuji, ze to sami priznavaji v odst. 6.4. Je to jiste pekny pocin, ale pri realnem nasazeni bych tipoval uspesnost tehle metody nekde kolem 60-80%.
Použití #sarcasm a jiných hasthtagů je nejlevnější cesta, jak získat mraky trénovacích dat; jak moc je to dobrá proxy (resp. jak moc malý je recall a tudíž nezahrnutí sarkastických tweetů bez self-labelingu) je zajímavá otázka.
Nicméně existují i manuálně anotovaná data, dokonce v češtině, viz
PTÁČEK, Tomáš; HABERNAL, Ivan; HONG, Jun. Sarcasm detection on czech and english twitter. In: Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. 2014. p. 213-223.
Tam to nebyl deep learning, ale SVM a MaxEnt. Jenže ruční anotace něco stojí a rozdíl mezi trénováním na 7k a 100k instancích už je znát (viz experiment na angličtině).
Souhlas - bohuzel taky nejlevnejsi cesta jak ziskat de-facto synteticka data neodpovidajici realne situaci s analyzou politickych diskuzi. Kazdopadne diky za odkazy a za tip na ten codalab. Koukam, ze se v tom realizuje dost Cechu. Casem se na to podivam, ted pisu knizku o hackingu, takze se pohybuju trosku v jine oblasti a uz bych to nepobral.
Děkuji za další reference. Díky za odkaz na CodaLab. Zatím pracujeme heuristicky - zahrnuje to sběr a vyhodnocování českých n-gramů, Bayese, zvažujeme přípravu vlastního datasetu pro následné testování jednotlivých metod a postupů. Vyhodnocování nadsázky a ironie je pouze malou části celého procesu - rádi bachom byly, kdyby se nám dařilo v té oblasti zlepšovat. Nechceme házet flintu do žita...