Vlákno názorů k článku O sentiment analýze bez sentimentu aneb jeden malý experiment od Jan Hrdlička - Disclaimer: Autor pracuje jako research engineer ve společnosti...

  • Článek je starý, nové názory již nelze přidávat.
  • 14. 7. 2011 16:01

    Jan Hrdlička (neregistrovaný)

    Disclaimer: Autor pracuje jako research engineer ve společnosti Buzzboot

    Dobrý den, připojuji pár postřehů:

    1)Josef Šlerka: "Zvlášť pokud se obecně usuzuje, že relativně snadno dostupnými prostředky jako jsou bayesovské filtry či SVM, lze dosáhnout velmi rychle úspěšnosti přes 70 procent"

    Jedno číslo pro úspěšnost je velmi zavádějící. Například když budu mít 80% příspěvků neutrálních, tak 80% úspěšnosti dosáhnu označením všech jako neutralni (což není úplně to, co chceme). Pro takové případy jsou tu například sensitivita a specificita (oblíbené v lékařských statistikách) nebo ještě lépe confusion matrix jako mnohem vhodnější míry.

    2) Že sentiment může být jiný celkově a jiný vzhledem k hledané značce je evidentní. Ale není pravda, že Naivní Bayes či SVM musí poznávat jen ten celkový. Záleží pouze na vhodné volbě příznaků (features).

    3) Nejdůležitější myšlenka (nemá cenu poznávat sentiment, ani lidi ho neznaji) je sporná, ale ne nutně chybná. Pokud se budeme snažit poznávat sentiment i s "background knowledge" a za každou cenu hledat pozitivní nebo negativní nadech, pak se neshodnou ani lide (natož aby sentiment uměl poznat robot) a dostáváme se spíše na pole hádání. Můj skromný názor je, že hodnotitelé se snažili za každou cenu nějaký sentiment najit (tak jak to dělalo i několik lidí v komentářich ke článku) a pak se neshodnou ani mezi sebou.
    Otázka je, co chce zakaznik....sen­timent u kterého se všichni shodnou (zbytek je neutralni-diskutabilni)? Nebo sentiment u ktereho ani sami hodnotitelé přesně neví, ovšem nějak si "tipnou" s tím, že používaji svou "background knowledge", která může být rozdilna od autora příspěvku - tweetu?

    hrdlicka(vy vite co)buzzboot.com

  • 14. 7. 2011 17:30

    Josef Šlerka (neregistrovaný)

    Diky za tyhle poznamky. Pokud jde o bod jedna (a vlastne i dva) tak mate pravdu. Pokud bychom mohli pristoupit na mereni accuracy, precision a Recall muzeme se podivat do studie od Rudy Prabowa a Mike Thelwalla: Sentiment Analysis: A Combined Approach kde je k dispozici prehledna tabulka jednotlivych algoritmu.

    Mimochodem ukazuje, ze pouhe vyuziti polarizacniho slovniku jsou uz zajimave vysledky, ale take ukazuje, ze rada postupu nebyla nikdy poradne hodnocena a uz vubec ne proti zminkam ze socialnich siti. Co je ale v tom vsem zajimave: mereni recall i precision se pocita proti lidskym hodnocenim, proto mne zajima, jak lide skutecne zminky klasifikuji. (Nebojte z jednoho experimentu zavery nedelam.)

    Pokud jde ale o bod tri, ktery je ten zajimavy, nerikam, ze nema cenu strojove poznavat sentiment. Rikam, ze je treba urcite opatrnosti. Treba i protoze zminky na socialnich sitich jsou casto jiny zanr, nez texty recenzi na kterych je vetsina ML systemu ucena. Navic, a to by melo byt receno, dost jasne: drtiva vetsina monitorovanych brandu nema v Cechach desitky tisic zminek mesicne, ale spis tisicovky mesicne, cili spis stovky denne a s klesajicim poctem zminek klesa i uspesnost rady postupu. Navic klient si tak spis pamatuje 1 spatne oznacenou nez 4 spravne:-)

    Ale! Uplne jina hra kuprikladu je, pokud chce klient (near) real-time alertovaci system, ktery ho varuje, ze ma spadlou sit a podobne. Bohuzel rada socialnich guru mele o sentimentu an sich, coz je blbost per se:-)

  • 15. 7. 2011 19:41

    Miroslav Spousta (neregistrovaný)

    Shoda anotátorů se často měří pomocí kappa koeficientu (Cohen's kappa) nebo podobných měr. Pokud je shoda malá, může to také znamenat, že úloha není dobře specifikovaná -- ve složitějších případech pak anotátoři vyberou v podstatě náhodně. Může pomoct i pár příkladů.

  • 15. 7. 2011 21:55

    Josef Šlerka (neregistrovaný)

    Jaký používáte na UFALu dataset pro testování vašich postupů? Tedy jak jste ho získali a je volně dostupný?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).