V tomto článku padla snad všechna klíčová slova, ale jinak jsem se nedozvěděl vůbec nic.
Jediný dojem - ten člověk by mohl zmrdispeak vyučovat!
Třeba toto je perla: "Používáme Node.js, protože má V8 engine od Googlu pro paralelizaci. Potřebujeme kvůli rychlosti všechno naráz, ne v sérii. Node.js nám umožňuje operace dělat zároveň rozumným způsobem. Používáme také NoSQL."
Pavel je génius!
Pokud jsou jejich algoritmy logaritmicke/linearni a konkurencni pracuji v radu vyssich polynomu, tak to neni s nicim v rozporu. Ovsem zavisi na tom, jake NoSQL pouzivaji: jestli maji neco jako Pregel, tak za investici asi stoji. Jestli nasadili neefektivni klasiku typu Hadoop, tak se vyplati pockat na jejich konkurenci.
Znate ten ArangoDB v praktickem nasazeni? Ja to netestoval, ale na mne to pusobi (kvuli Gremlin a AQL), ze to nemuze mit efektivitu BSP schovaneho v Pregelu. Navic ArangoDB samo popisuje, ze jede premapovani grafu "When building a graph with ArangoDB a special type of document is created to represent edges and vertices. These documents contain a _to and _from attribute pointing to the connected document(s).", coz bude bud jen velmi vagni popis API struktur nebo naopak zavedeni zasadni neefektivity pri pristupu k uzlum.
Jinak se samozrejme ani dnes neshodneme, ze je Hadoop bezkonkurencne neefektivni prototyp, ale aspon oba vime proc si myslime to sve... :-)
pouze na dětských hračkách pro odzkoušení, struktury mají uložené jako list, lehce tomu pomohlo přidání až vertex centric indexů, což je jen taková ochcávka jak zpomalit zápis. Na žádný produkční projekt se to nedostalo, kluci si s tím hráli, ale při 10e9 uzlech to je dýchavičné.
A čím bys nahradil hadoop pokud potřebuješ ukládat velké množství dat a občas je prohledat? Nejsem zatvrzelý fanda, nasazuji ho jen tak v 1/10 projektů.
Ano jedou na pregelu, konkrétně používají arangodb.
Už jsme se o tom jednou bavili, existuje řada případů, kde hadoop nemá moc konkurenci a ostatní databáze typu netezza, teradata, cassandra si vylámou zuby, to ale neznamená, že se musí používat všude, jak to někteří dělají a provozují ho na 10 nodech, to je opravdu plýtvání výkonem.