Vlákno názorů k článku Webhousing není serverhosting od Dusan Bolek - Autor tvrdi, ze rozdil mezi webhousovym skladem a...

  • Článek je starý, nové názory již nelze přidávat.
  • 16. 1. 2002 10:39

    Dusan Bolek (neregistrovaný)
    Autor tvrdi, ze rozdil mezi webhousovym skladem a beznym datawarehousem je nutnost uchovavat az jednotky TB a ze "cliskstreamová data jsou v současné době nejnáročnějším typem dat".
    S tim bych si dovolil nesouhlasit. Z hlediska datoveho skladnictvi je nekolika tebajtovy sklad rekneme strednim kouskem a existuji i mnohem vetsi datove sklady. A co se tyce narocnosti, tak data pro analyzy, napriklad nadnarodnich prodejnich retezcu, musi nejake clickstreamky snadno strcit do kapsy. :-)
  • 16. 1. 2002 11:19

    MK (neregistrovaný)
    ja chapu nadseni autora pro schovavani weboveho provozu. Krome toho, je to jsou trivialni data, ktera se celkem hodi do relacni databaze, neni celkem nic, co by se k nim dalo rict.

    Autor pravdepodobne nenahlizi na zpracovani obrazu, at jiz statickeho nebo dynamickeho v datovych skladech. To by mluvil o "klikancich" s ponekud mensim respektem.

  • 16. 1. 2002 14:56

    Ivo Rehberger (neregistrovaný)
    Mate uplnou pravdu, ze pro webhousing je mozno s uspechem pouzit relacni DBMS. Zpracovani obrazu je take jiste narocne na data. Pro realny priklad nemusime daleko, pro film Pan prstenu se pouzivala 100TB databaze pro filmove efekty. Tento clanek ale porovnava data warehousing a data webhousing v kontextu ukladani firemnich, obchodnich ci provoznich dat tak, jak bezne tyto data vznikaji ve firme a jejich IT systemech. Nepochybne se najde jeste mnoho pripadu, kdy jsou ukladana do datoveho skladu data obrovskych objemu, ty ale budou souviset s cimkoliv jinym, nez s provozem firmy nebo online obchodu.
  • 16. 1. 2002 16:06

    MK (neregistrovaný)
    Nevim, jestli jsme si rozumeli. Zpracovani obrazu neni v prvni zalezitost narocna na data (i kdyz tam nejaky ten PB - petabyte - potrebujete), ale na jejich zpracovani.

    Trivialni multikriterialni analyza textovych strukturovanych informaci, ktere jsou generovany clickstreamingem (mnohem lepsi nazev pro to, co je v nazvu clanku), neni nic proti algoritmum rozpoznavani videodat. :-)

  • 16. 1. 2002 16:24

    Pavel Francírek (neregistrovaný)
    Taky bych rekl, ze zpracovavani logu navstevnosti webovych serveru neni zadny extremni pripad.

    Alespon, pokud se pohybujeme v radech nejakych milionu zaznamu za den po dobu roku.
  • 16. 1. 2002 14:12

    Ivo Rehberger (neregistrovaný)
    Souhlasim s Vami, ze existuji i mnohem vetsi datove sklady, ten rozdil mezi sklady tudiz nebude z hlediska rozdilu objemu dat prilis viditelny, uznavam. Clicstream je ovsem zvlastni zdroj dat v rychlosti generovani objemu a urovni granularity dat. Datove sklady nadnarodnich retezcu budou jiste uctyhodnych rozmeru. Jejich velikost vsak neroste prilis rychle a uroven granularity jejich dat zustava priblizne stejna. Nektere detailni informace se uz totiz nevyplaci ukladat do datoveho skladu, nebot jejich analyza neni ucelna.

    Typicky neucelne je ukladani informaci na urovni jedne kazde polozky prodaneho zbozi na uctence kazdeho zakaznika kazdeho obchodu daneho prodejniho retezce po celem svete. Pokud by se ukladal do skladu tento zaznam, dalo by se to srovnat s objemem clickstream dat. Firmy to ale nedelaji, nebot nejsou schopny tyto informace spojit napr. s dalsimi informacemi o zakaznikovi (ktere ziskame z clickstream analyzy na internetu). Radeji agreguji prijem z prodeje urciteho vyrobku v urcite prodejne za cely den a dany udaj ulozi do celofiremniho datoveho skladu. A objem techto dat nebude vetsi nez clickstream data ziskana za jeden den na Yahoo, kde prijdou miliony navstevniku a kazdy v prumeru provede deset akci na serveru a vsechny tyto akce se zaznamenaji do skladu.

    Dale je nutno si uvedomit, ze rychlost rustu objemu beznych firemnich dat se nemeni, pripadne roste pomalu. Oproti tomu se objem cickstream dat neustale zvysuje (zalezi samozrejme na konkretnim serveru). Jako dalsi krok v clickstreamove analyze lze ocekavat snizovani granularity na uroven page events, kdy se zaznamenavaji jednotlive akce na strance, jako je rolovani stranky, zobrazeni (viditelnost) grafickych objektu, prejizdeji mysi po strance apod. Muzeme polemizovat, jestli to je take ucelne, ovsem skutecnosti je, ze clicstream data lze vzdy vice ci mene spojit s (nekterymi) zakaznickymi daty. To je take duvod, proc je clickstreamova analyza ucelny nastroj pro marketing. A objem zaznamu vsech page events za jeden den na Yahoo opravdu nejsem schopen odhadnout.
  • 16. 1. 2002 16:20

    Dusan Bolek (neregistrovaný)
    Dobre uvedu primo priklad, ktery (takrka) duverne znam. Je zcela bezne, ze se v datovych skladech bank ukladaji informace, ktere maji jako grain (dovolim si neprekladat) transakci. Uvedomime-li si kolik podobnych transakci je vykonano (je nutne vedet, ze to ze nekdo pride na pobocku a da platebni prikaz, muze vygenerovat pet i vice transakci) a kolik informaci se o kazde transakci uklada, je jasne jak obrovsky je objem dat.
    Toto je tedy konkretni priklad datoveho skladu, ktery u velke banky muze narust do vskutku olbrimich rozmeru.

    P.S. Jeden jediny uver muze znamenat tisice transakci.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).