Výborně shrnuto. Sám v praxi vidím, jak se všude ve velkých firmách nasazuje jeden "Big Data a Business Intelligence" nástroj za druhým a když se tak mezi řečí zeptám, kdo ručí za to, že data v těch nástrojích jsou korektně změřená a sbíraná, aby nechyběla, nebyly tam duplicity a nepřesnosti, tak vlastně nikdo. To dodavatel nějak zařídil a támhle ajťák se o to podle návodu stará (v praxi se stará akorát o to, že to běží a neskáčou alarmy). A když se zeptám, kdo s těmi nástroji pracuje, jestli je to analytik, jestli rozumí tomu, co to je za data a jaké mají vlastnosti... tak vlastně taky pořádně nikdo. Hlavně, že jsou statistiky a grafy a těhle krásných 97,5% bůhví z čeho naměřených příští kvartál vyšponujeme společným úsilím na 99% a pogratulujeme si.
Pár desítek let to tu je, dávno před Big Data. A v praxi se běžně genetické algoritmy úspěšně používají.
Viz třeba http://boxcar2d.com/
Je i zbytek článku přesný jako tento výmysl?
Hromada firem nepouzije realne ani zcela zjevne informace ...
Maly priklad - sklad na kterem lezi neprodejne zbozi. 10 let firma resi, co snim, najima vsemozny externisty, dela analyzy ... aby se pokazdy dozvedela to, co ji dokaze rict i ten nejposlednejsi skladnik - ze je vyhodnejsi to nahazet do kontejneru.
Pripadne se ani nekolik malo lidi ve firme nedokaze dohodnout, ktera data jsou vlastne pro dany ucel relevantni - jestli vychazet z faktur/vydejek/prijemek ... jestli brat v potaz nezaplacene ... a pak se zcela standardne stava, ze usporadaji poradu, a kazdej tam prijde s tabulkama a grafama ... ze zcela jinych cisel.
Videl sem uz par firem, kde sefstvo utratilo miliony za ziskani informace, kterou by jim rekla uklizecka ... ta by to pravda nedoprovodila 150ti strankama barevnych grafu ... ale spis par vetama s nejakym tim jadrnym vyrazem.
Mám dojem, že Jirka Hlavenka nepochopil, co jsou Big Data. Big Data nejsou jen nějaká velká data měřená v terabajtech. Znovu si přečtěte tu definici:
"informačními aktivy o velkém objemu, velké pestrosti a velké proměnlivosti, která vyžadují nové formy zpracování k usnadňování rozhodovacího procesu, objevnému vhledu (do problematiky) a procesní optimalizaci"
Tedy ani náhodou neplatí, že "co pro jednu společnost jsou big data, je zvládnutelné (standardními) analytickými prostředky větší korporace". I malá společnost může mít (relativně) velký objem dat, které budou mít různé zdroje s velkou rozmanitostí, které budou vyžadovat nové formy zpracování s objevným vhledem a procesní optimalizací.
Samozřejmě část lidí si plete "Big Data" s tím, že mají hodně dat někde v cloudu a myslí si, že tím že si je zobrazí jako pivot v excelové tabulce, tak že najednou analyzují fakt jako BIG data. Ale nic nemůže být dál od pravdy.
Odpovím na váš kritický příspěvek, současně se to týká i několika dalších výše. Chápu, že třeba v oblasti big dat pracujete, poctivě a dobře, a že se vás emocionálně dotklo, že vám na tuto svátost někdo sáhl a troufl si zapochybovat a zkritizovat. Pak ale článek interpretujete po svém, ač si myslím, že jsem to popsal přesně a jednoznačně.
Nijak nezpochybňuji to, že velká data existují, nijak nezpochybňuji význam datové analýzy. Nijak nezpochybňuji, že vznikají nové metody práce s daty. Uvádím pouze, že je to z velké části marketingový, tedy "na práškách vyhoněný" pojem, který je využíván v obchodu k tomu, aby firmy z oblasti IT prodaly svoje servery, technologie, řešení, implementace. K tomu též uvádím některé slabiny či slabší místa oblasti a zpochybňuji tvrzení, se kterými jsem se často setkal, kdy jsou big data uváděna pomalu jako samospásná. To je vše.
je to stejna pohadka jako BI (business intelligence). kdyz casem firmy zacaly chapat, ze je to za ne nic nevyresi, ze by spis mely makat, tak se vyrojil pokus o restart BI - BI 2.0. ale na tohle uz te bande obchodniku s destem nikdo moc neskocil. tak ted jsou tady BD (Big Data). za 2-3 roky, az tyhle hochstaplery vyhazete dverma, tak vam zacnou lezt oknem zpatky s Big Data 2.0. A pak prijde neco dalsiho. Proste lidi je jak sra*ek, co s nima.
Tak to jste na velkém omylu pane kolego. Viděl jste některou z konferencí o tzv. Big Data? Např. česká Good Data vysílá na tyto akce v USA mnoho svých zaměstnanců a tam je to jedna kritika za druhou, kdy se kritizují poměrně ostře přístupy, které nemají jasný matematický důkaz a nebo empirické podklady. Právě v tomto oboru se hodnotí důslednost a autor tohoto článků o tom nic neví. Zcela souhlasím s předchozímí přispěvky, protože tohle by bylo kritizováno ne proto, že autor kritizuje Big Data (jak jsem psal, na každé konferenci najdete matematickou přednášku na toto téma kritizující, jak daná věc nefunguje a nemá ji nikdo kupovat). Jde o to, že autor zjevně o tématu nic neví. Kdyby věděl, uvedl by konkrétní příklady, v jakých odvětvích co funguje a naopak. Doložil by to buď oním matematickým důkazem na BG a nebo srovnáním s empirijí, kde model nekoreluje se skutečností. Tohle je jen pocitový nesmysl, kde autor BG neviděl ani z rychlíku a nedokáže věcně odpovědět.
Nicméně pro některé aplikace netřeba znát přesné kauzální vztahy. Viz třeba ve článku zmíněná (hypotetická) statistická závislost, že mají ženy více prsním implantátů je i více plešatých mužů. Inovativní majitel kliniky pro plastickou chirurgii s velkým odbytem prsních implantátů si okamžitě po tomto zjištění otevře oddělení pro transplantaci vlasových kořínků a důvod této závislosti ho vůbec nemusí zajímat.
Rozhodně to má celou řadu zajímavých aplikací, ale myslím si, že článek neodsuzuje big data kompletně, ale pouze jako poslední "zázračný lék" na všechno...
Zkrátka každý nový nápad, nová metodika, nová technologie má své opodstatnění a využití a je jistě správné hledat využití v co nejvíce oblastech, ale nemělo by to být za každou cenu, tam kde to nemá co dělat. Bohužel v současné době mi někdy přijde, že se lidé zbytečně honí za tím nejnovějším a nejvíc in buzzwordem, bez ohledu na jeho použitelnost.
No jo, další z článků odborníka Hlavenky na všechno. Už jsem to tu psal, ale nemůžu se zdržet dojmu, že pan Hlavenka rozumí úplně všemu včetně tzv. BD. Jak se zdá, měl by Google říci, že by žádná data neměl sbírat, měl by říci, že matematika je na nic. Možná, že s tímhle pohledem ho Google hned zaměstná mezi výzkumníky.
Nechtěl by náhodou pan Hlavenka s takovou rétorikou kandidovat v politice? Tam se takové prázdné nesmysly uplatní.
Mrzí mě to, ale podle mého názoru podobné články nepatří na Lupu. Aspoň v tom, jak já chápu tento e-zine, kde píší obvykle odborníci na danou oblast a mohou se klidně vyjadřovat kriticky a konfrontačně, to je v pořádku. Tohle je ale článek, který se hodí pro laijky na idnes, protože je z něj snadné poznat, že autor nikdy s tzv. Big Data nedělal, že nerozumí dané problematice, není to ani matematik ani statistik a zjevně patří mezi lidi, kteří by nasazovali danou technologii špatně a namísto svojí chyby špatné volby obviňují technologii.
Když už bychom chtěli mluvit o bublině, tak tu osobně vidím v tzv. cloud, který sám autor uvádí jako správnou cestu, i když to je jen jakási forma hostingu s využitím moderních prvků virtualizace. A hosting se tady také dělá nejméně 20 let. A tam to autorovi nevadí a je to najednou správně? Článek je prostě ukázkou, jak nemá vypadat odborný příspěvěk, míchá mnoho pojmů a je nekonzistentní v nastavených parametrech hodnocení. To pokládám za znak neprofesionality, a proto jak jsem psal v úvody, články tohoto druhu na Lupu nepatří.
I když existuje kausální a současně statistická korelace, nevyplyne ze statistiky její směr (tedy co je příčina a co následek).
Klasika Je statisticky prokázáno, že tuberkulózní krávy dávají více mléka. Když se to takto podá, tak by se zcela jistě našel nějaký filuta, který by zlepšoval dojivost pomocí kultury Mycobacterium bovis. Konec konců, mlíko se po nadojení žene skrz pasterizátor, který tyhle bakterie spolehlivě zahubí...
Nicméně kauzalita je zde přesně opačná: Kráva, která víc dojí, má z tohoto důvodu nabouranou odolnost a snadněji chytne tuberkulózu.
To je vpravdě obvyklé chování větších firem, jenže příčina prostá: neschopný management předstírající činnost a tím bránící svému vyhození.
Nebylo by jednodušší prezentovat čísla, která vzájemně navazují? Bylo. Jenže, pak by zbylo více času na nepříjemnosti typu: špatné výsledky a co s tím.
Nedaří se mi obchodovat? Spustím dvouletý projekt implementace obchodního systému, který mi poskytne netušené možnosti. Za dva roky na tom bude stejně, avšak s více zaměstnanci (systém je složitý) a odpisy.
Užitečný článek. Když se začínají pořádat festivaly big-datových startapů v Česku, to je dobré znamení davové hysterie.
Loni jsem četl v americkém webu lepší článek než tento. Autor si dal námahu a mluvil s několika špičkovými lidmi, kteří vyrábějí analýzy a s lidmi, kteří konzumují analýzy velkých dat. Žádné terno na jedné či druhé straně velkých dat.
Zareaguji krátce k genetickým algoritmům, abych předešel nedorozumění. Máte pravdu, že ten pojem je starší než Big Data, omlouvám se za nepřesnost v článku.
Ale jde o to, že v oblasti Big Data je to už prezentováno jako jedna z těch nových, prokázaných, zaručených, skvělých metod vedoucích k výsledku. Ve skutečnosti genetic algorithms jsou stále spíše vědeckým projektem, předmětem zkoumání - využití v praxi (tedy mimo vědy!) je zatím dosti malé. Z mého pohledu je to opět jeden z marketingem zneužitých vědeckých termínů, aby se projektu Big Data dodalo na důležitosti a "jakobyvědeckosti".
Ano, Big Data je buzzword, pod kterým se každý snaží prodat kde co. Jestli má pan Hlavenka pocit, že zrovna v řízení firmy to nic nového nepřinese, možná má vzhledem ke svým zkušenostem pravdu. Nebo už je ve stadiu "nechoďte na mě s novotami, všechno už tu bylo" ;-) Ale zpracovat velké objemy dat se přece hodí v mnoha jiných případech. Není na místě zatracovat celou oblast výzkumu kvůli pocitu, že se tím někdo někde možná snaží nahrazovat zkušené manažery a navíc to smotat to dohromady se statistikou, data miningem a business intelligence.
Měl jsem tu čest slyšet přednášku Ricarda Baeza-Yates (kromě jiného Yahoo! research) o tom, co jsou v Yahoo schopni vydedukovat například jen z metadat o fotkách na Flickru, které tam uživatelé zadávají (tagy, GPSloc, atd.) Jednoduché informace, ale je jich hodně. Má to aplikace všude možně od turistického ruchu po třeba zpracování přirozeného jazyka počítačem. Mám i řadu dalších pěkných a užitečných příkladů, na které tu není prostor.
Zkrátka bráno vážně, je to moc zajímavá oblast. Nic ve zlém, ale možná víc číst a míň psát.
To je vidět pane Hlavenka, že píšete o něčem, o čem nemáte žádnou znalost a jen jste si přečetl pár článků na TechCrunch apod. Nikdy jste zjevně neudělal jediný tzv. genetický algoritmus a vsadím se o cokoliv, že ani netušíte, co to vlastně znamená a jak byste takový algoritmus matematicky nadefinoval. To z Vás dělá jen člověka, co píše o něčem, čemu vůbec nerozumí a tím je určena i kvalita toho článku.
Jinak pochopitelně genetické algoritmy jsou používány a to ve velkém, ani o tom nevíte. Např. já mám zkušenost z jedné z nej pojišťovací instituce, kde slouží k odhalování a modelování pojišťovacích podvodů již mnoho let. A vzhledem k tomu, že se v oboru pohybuji, tak znám mnoho dalších kolegů např. z finančnictví, které tyto algoritmy nasazují. Kromě toho u nás je jeden z největších superpočítačů na předpověď počasí a ten podobné algoritmy používá také ve svých modelech. Tak co to tady pindáte za nesmysly?