Post O2 super zmrdi je negativní. To, že autor zapomněl čárku je sice pěkné, ale výsledek je jednoznačný při lidské i strojové analýze. Mimochodem - až tyhle naše příspěvky budou v O2 vyhodnocovat (zdravím!), dají jim negativní, nebo neutrální sentiment? První příspěvek vlákna celkem jasně ukazuje, že jeho autor je přesvědčený, že vnímání O2 je negativní. Je to pouhé konstatování, nebo je to hodnotící soud?
Tohle je hezký příklad - jak vyhodnotit tyhle zmínky? Dovolil bych si s Jakubem Machem nesouhlasit v tom, že většina příspěvků je jednoznačná. A teď nejde o tu ironii - na tom se to pravda hezky ukazuje, ale není to až tak časté. Ale pokud budu mít status na Facebooku: "Tak jsem zapomněl zaplatit u O2 tátovu fakturu, to je průser." - tak je to průser autora, nikoliv O2 a pro ně je výsledek "neutrální"... Podobných příkladů je hromada, Josef dal k dispozici i ty "testovací" otázky, které jsme nijak speciálně nevybírali, nějak "aby nám to vyšlo".
Když monitorujete brand nějakého softwaru a někdo napíše "je to super soft, teď jsem si ho stáhnul z torrentu a už mi to po cracknutí valí" - je to pozitivní nebo negativní? A tak by se dalo pokračovat dlouho...
Co tím chci říci: zároveň podle mě platí, že když nabídnete klientům strojové zpracování sentimentu, obvykle už se nebudou dívat, jestli to sedí nebo ne. A nebudou muset přemýšlet nad tím, CO vlastně vnímají sami jako pozitivní, co neutrální a co negativní. A samotná nutnost toto si interně vysvětlit mezi sebou, může být jedním ze zajímavých přínosů monitoringu.
Není negativní :-) Je pozitivní resp. AUTOR to myslel pozitivně ale díky své chybě to vyzní negativně. Je to sice chyba ale výsledek vyzní vzhledem k nemožnosti detekovat chybu strojově - přesně opačně než by měl. Proto se zde nemůže pracovat s jedním, každým příspěvkem ale musí se počítat s tou zmíněnou odchylkou ve vztahu k potenciální gramatické chybě. Základním předpokladem dosažení přibližně správného celkového výsledku (filtrem) může být další parametr v hodnocení. Příklad: Dělám průzkum na sociální síti, kde převažují pubescenti s nízkou úrovní vzdělání. Pokud dokážu takto respondenty identifikovat, pak nastavím vysokou pravděpodobnost gramatických chyb a raději nebudu nic vyhodnocovat protože pro mě ti respondenti jednak nemají "váhu" jako např. cílová skupina a nemá pro mne ani váhu jejich názor. Vím, že na nějaké čárky ve větách mohu čekat marně a riziko vzniku významové chyby v analýze je vysoké. NAOPAK u skupiny respondentů, kterou mohu charakterizovat jako vzdělanou a nosnou pro sledování veřejného mínění, předpokládám vysokou pravděpodobnost, že chyby v gramatice nedělají a slovní analýza má vysokou pravděpodobnost relevantnosti. Btw. Určitě jsem tu sám nasekal spoustu gramatických chyb :-) Analyzujte mé příspěvky .. Dívám se na sociální monitoring spíše pozitivně, skepticky nebo vyváženě ? Jak to vyhodnotíte Vy a jakou šanci má stroj ? Vy získáte dojem .. což je v pořádku .. je to jako s tou nahoře uvedenou větou o O2 ale stroj to nevyhodnotí nijak. Čím abstraktnější diskuze a celkový kontext názorových pohledů tím těžší stanovit hodnotící kritéria (parametry) a začnou převažovat neznámé se kterými ani strejda Bayes nehne :-) Ve výsledku s použitím podobných metod dostanu výsledek, který chci dostat protože jsem k jeho dosažení vymezil jen určitá (pro můj výsledek vhodná) kritéria.
A o tom to celé je .. Social monitoring mi má usnadnit vyhodnocení ve vztahu k určitému MÉMU účelu např. obchodnímu atp. Rozhodně by ale neměl být brán výsledek podobných analýz jako berná mince pro rozhodovací procesy s celospolečenským dopadem. Zde už je velký prostor pro zneužití výzkumu a účelové zmanipulování veřejnosti.
Ano to je, nicméně strojová analýza se používá právě z důvodu rychlosti automatizovaného vyhodnocení byť to je na úkor přesnosti.
Napíšu tweet "O2 super zmrdi" ... jak to stroj vyhodnotí jen na základě slov ?
Spojení slova O2 a slova zmrdi + umocňujícího slova super = velmi nagativní postoj vůči O2
Ok ale ve skutečnosti jsem napsal, že O2 jsou super a reaguji na negativní příspěvky v diskuzi tak, že ostatní diskutéry označím za zmrdy. Jen jsem udělal malou gramatickou chybu a nenapsal jsem čárku za slovo "super".
I s tou chybkou se musí počítat. Samozřejmě, že s využitím různých filtrů se definuje určitá pravděpodobnostní odchylka vzhledem k takovýmto možným chybám a výsledek je pro potřeby zadavatele přesto použitelný. V oblasti zkoumání nálady obyvatel za jiným než obchodním účelem bych ale byl velmi opatrný jak výsledek použiji. Je zde mnoho faktorů a souvislostí v kontextu diskuze, které mohou v sumarizovaném vyhodnocení vyznít velmi zkresleně a další interpretace mohou reálný výsledek zkreslit ještě více a bude to zkreslení účelové.
Nyní trochu offtopic. Odběhnu k použitelným metodám Social monitoringu přesněji monitoringu aktivit v sociálních sítích. Zajímavá bude analýza skupinové komunikace např. s nyní "nově" (ono to tedy není nově) integrovaným prvkem "Sociálních videokonferencí". Zde může nastat zásadní problém ve vztahu k vynucované právní odpovědnosti provozovatele za zveřejněný obsah na svém webu. Někdo může FB nebo G+ napadnout, že provozují videochat, kde dochází k zneužívání dětí (dívek pod 15), které nabízí virtuální videosex za úplatu. Jak se bude provozovatel chránit ? V prvním kroku podmíní registraci ke službě, věkem uživatele (neověřeným) a dále souhlasem s podmínkami provozu na webu, kde bude takováto aktivita zakázána. Uživatel odklikne souhlas a to provozovatele kryje protože dálková smlouva takto uzavřená je právně platná (alespoň v ČR) i bez fyzického či ověřeného podpisu. Problém ale nastane další a to je poskytování služby mezinárodně. To co je zde právně přípustné nemusí být přípustné jinde. Začne provozovatel zamezovat přístup zahraničních uživatelů ? Asi ne .. Začne proto s aktivní metodou "cenzury" protiprávních aktivit na svém webu a jsme už u samotné analýzy aktivit na sociální síti. Jak například provozovatel FB videochatu zjistí, že mu někde běží videokonference, kde si to dělá 13-ti letá holka (vydávající se za 18-ti letou) před 20-ti chlapy a za peníze. Je nutno nastavit filtry a vyhodnocovací mechanismy. Uplatní se Bayes, SVM a další nástroje. Příklad: Monitoruji textový chat se spuštěným videem a v něm přihlášené uživatele. Nastavím filtry: Pohlaví uživatele + věk a omezující filtry jako: počet přihlášených uživatelů mužů a žen přičemž výsledek 1 žena + více mužů za podmínky, že mají všichni muži zobrazen maximalizovaný obraz ženy = potenciální protiprávní aktivita. Pokračuji dále ve filtrování a nasadím analýzu obrazu pomocí specializovaných filtrů. Barva pokožky (více variant) a poměr plochy pokožky v obraze k barvám ostatním (oblečení) = více pokožky = více nahatá, detekce končetin a jejich vzájemné polohy, antropologické rysy ve vazbě na vyhodnocení potenciálního věku atd. atd. FILTR se opět zúžil na detekci rizikové aktivity. A pokračuji ve filtrování dále: Analyzuji související textový chat na slova" Sex, masturbation, naked, cum, tits, pussy, pay, credit, money, teen atp. Filtr se opět zúží. Nasadím autolearning metody a vyhodnotím podobnosti v charakteristických (rizikových) videostreamech. Těch zužujících filtrů se dá nastavit HAFO. Výsledkem je upozornění admina na rizikovou aktivitu, který tuto aktivitu prověří a zablokuje popř. zablokuje účet uživatele. Použití podobných metod dokáže dnes ochránit provozovatele aniž by musel zavádět ověřenou! registraci na své službě.