Tak nějak nechápu to, že si nechali vyplavit celou serverovnu. Vždyť větší průsak vody lze zjistit velice rychle. Monitoringem vlhkosti v jednotkách minut (cca 3 minuty), správně položenými detekčními kabely v jednotkách sekund. Pokud by měli správně realizovaný monitoring tak by měli dost času na reakci.
Pro provozovatele jakýchkoliv kritických systémů by měla být norma IEC 61508 přímo biblí.
IEC 61508 rizika kategorizuje mimo jiné podle pravděpodobnosti jejich vzniku a ty se posuzují podle konktétního místa. Vodopád pravděpodobně nikdo v těch místech nepředpokládal. Když praskne voda - tak je to dost často o sekundách, voda v serveru je problém ihned. Voda je potvora a silný živel a cestu si najít umí často i místy, které se zdají až nemyslitelné :-)
To že jej ale nikdo nepředpokládal je ale dost hloupé. Když je to jeden ze statisticky nejčastejších důvodů selhání IT infrastruktury. Nějakou dobu se totiž živým vývojem přístrojů které se mimo jiné používají pro monitoring prostředí serveroven. Někde u konkurence (myslím že to byl Avtech) jsem viděl hezkou statistiku.
nahle hodne? se tam protrhla prehrada? normalne tam chcala voda, casa to nechala bezet a postupne shoret nejen sobe, ale i klientum.
jeste vecer me lakovali, ze to je jen drobna zavada. tak jsem tomu cloveku na lince rovnou rekl, at si to necha a rovnou me rekne, co s tim chteji delat - abych se podle toho zaridil. jeste druhy den rano zatloukali. tak jsem zavolal obchodnika a ten jediny me poctive sdelil jak na tom jsou.
Ono stačí, kdyz praskne nějaká stoupačka a nějak neštastně se to rozleje. Voda se může někde nahromadit a když je jí v prostoru hodně, někde se něco provalí a je vymalováno :-)
Dostat z jakéhokoliv helpdesku informaci o skutečném dopadu problému bývá složité. Ono doopravdy nějakou dobu trvá, než se vyhodnotí skutečné dopady incidentu.
Kvalita odvedené práce je jedna věc. Ale mnohem více rozhoduje objem finančních prostředků, který je na dané řešení k dispozici a to se odvíjí od oběmu peněž, které jsou ochotni zákazníci za služby platit. Na to se rádo zapomíná :-) Lidi si platí službu za pět stovek měsíčně - ale chovají se, jako kdyby investovali stokrát víc.
to už je fakt fraška :)
tedy:
vody bylo málo - to by sakra dohled mohl nějak pořešit a dobře vyřešená serverovná zvládnout bez tak fatálního výpadku
vody bylo hodně - tudíž s tím nemohli nic dělat. pak by ovšem i debil pochopil, že je to v řiti a měl by přiznat barvu
v prvním případě mohu říct - byla nehoda, je tam voda, ale jsme kluci šikovní a snad to dáme
v druhým případě mohu říct - byla nehoda, je tam fakt moře vody, dá se předpokládat velký rozsah škod
zákazník si to může přebrat....
Osobně bych nemohl mít dobrý pocit z odfláknuté práce. Pokud hrozí nějaké nebezpečí plynoucí z provozu nějakého přístroje nebo služby tak je slušností o tom zákazníka informovat. Např. u jednoho z přístrojů který jsem vyvinul vím, že v roce 2036 dojde k přetečení NTP času (protože je tam 16bit CPU). Zákazníka o tom informuji v manuálu.
Pokud provozuji seriózně nějaký hosting tak musím mít vypracovanou analýzu rizik (minimálně při uzavírání pojistky). A nebojím se tuto analýzu nechat veřejně dostupnou.
já to neumím. já si to dal k profesionálum do casablanky :)
(a dělal jsem si naštěstí zálohy)
dle fotek bylo vody hodně - o to spíš to měl klient vědět.
ne jaký je rozsah škod - ten mohou zjišťovat hodiny - ale že tam natekla voda a že rozsah škod patrně nebude malý - když tam jak píšete vody nateklo hodně...
co prosím na tom není jasné?
Problém je, že zákazníci tyhle věci moc nečtou. I z této diskuze je zřejmé, že si ani pořádně nepřečetli smlouvu a všeobecné podmínky. To pak můžete informovat jak chcete... stejně pak přijde nějaký pitomec, co bude řvát, že to nefunguje jak on čekal a nějakých 16 bitů ho zajímat nebude, protože ani nebude vědět, co to je :-)
Který hosting z té nepřeberné nabídky na trhu zveřejňuje analýzu rizik? :-)
Třeba jen nechtěli šířit informace založené na slovíčku patrně, když sami nevěděli. Třeba měli nějaké indicie, že by se to mohlo možná rozběhnout v nějakém omezeném rozsahu dříve. Třeba jen nechtěli šířit zbytečnou paniku. Nevíme, jaká byla motivace. Ale na soudce si hrajeme :-)
S chladnou hlavou jde pochopit ledacos. Z pozice jednoho nasraného to také bude vypada jinak, než v kůži člověka, kterého bombardují stovky lidí. Co na tom není jasné prozměnu Vám? :-)
Nicméně já jako technik a administrator pokud budu nějaké řešení dělat v rámci zaměstnanecké pozice jako odborný vedoucí nemohu udělato to, že vedení (které nemusí mít o techice žádný pojem) řekne "udělej cloud za 10mega pro sto tisíc virtuálů" tak MUSÍM říct - NE za ty peníze to NEJDE a ne že půjdu a udělám nějaký paskvil.
To samé vůči zákazníkům ... nemůžu tvrdit že mám 100% dostupnost, když technické řešení není plně duplicitní.
Jak uz bylo zmineno, takovy prusvih by mnoho lidi pochopilo, pokud by se prvni hodiny nezametal pod koberec, protoze kdyby rekli, ze se tam dostala voda ve velkem, resilo by se to hned a ne az po nekolika hodinach - precejenom nebudete desitky serveru hned obnovovat jinde, kdyz vas uklidnuji, ze je pouze zavada na datovem ulozisti :-(
už to nehul, nám přímo ohrozili podnikání a to ne tím že se voda zastavila na tom plexi nahoře 2m od našich 150 serverů v přesně v té místnosti ale to že jsem se to dozvěděl od zákazníka co k nám migroval z BBO z důvodu výkonu a chtěl to popohnat.
Jenže ještě nejméně dvě hodiny nám nic neřekli ale to už jsme mohl mít zvědy v Abacusu, Composu, At computers s balíkem peněz prosit o co nejvíc serverů co mi prodají. Dokonce věřím ž v Abacusu by mi je dali i na sekyru kdyby nějaké měli. jako plán B byl CZC/ALZAC a rozjet to v bedně za 600 z desktopovejch věcí a když už by selhalo všechno tak začít komplet recovery z backupu formou sdílení zdrojů ve vitualizační platformě (std děláme vše nejen z vyhrazenými zdroji ale ještě z rezervou).
Takže 2 hodiny které mohli znamenat rozdíl mezi 500K škoda na kompenzacích pro naše klienty a 3,5M škoda na majetku. Nemít vlastní zdroje informací a být někde z třince tak ještě druhý den v 9:05, kdy volal obchodní a marketingový ředitel v reakci na náš $$$ stop stav směrem k jejich firmě do uplného vyřešení , jsem si myslel že je závada na switchi.
A to přesto že informace byly závazně vyjednány v podmínkách na rok 2014. Dokonce i z náslechů hovorů x krát uznali problém na helplince tj věděli že mají sekyru v komunikaci. To kurva posrali přitom šlo o max 10 zákazníků kterým stačilo přiznat barvu.
Kéž by to takto v životě fungovalo. Divil byste se, jaké mnohem horší paskvily vznikají všude možně kolem nás. A často je vyrábí lidé, co na základě zkušeností s dvěma servery v garáži vymýšlí řešení velkého systému s technologiemi, které neviděli ani z rychlíku. A ono to nějak dopadne :-)
Pokuď jde o onu duplicitu - opět jsme u toho, jakým způsobem je duplicita komponent realizována. I umístěním redundantního zařízení do sousedního racku duplicita vznikne. Posuzovat můžete robusnost, ale nikoliv namítat, že duplicita neexistuje.
Ale i z pohledu všech těch fňukálků tady - řeší své obrovské obraty a ztráty, klíčovou závislost jejich byznýsku na svých serverech, ale nejsou ochotni řádně řešení navrhnout, když je to tedy tak moc kritické. Přečtou si jeden papírek, kde se zaleskne 100% a to jim ke štěstí stačí - zjišťovat, co za tím je netřeba. Nepřemýšlí o rizicích, o tom, co garance skutečně pokrývá. Že nastala chyba už v návrhu jejich systému si prostě nepřipouští. Pokuď je to tak háklivé, tak přece nenacpu věci do nějakého cloudu, ale v několika serverovnách běžím dedikované servery. Inu, dobře jim tak :-)
asi nechápu co píšete, bavím se o to že je logistickej problém sehnat za den 150 serverů tj bychom nemohli poskytovat služby takže kompenzací myslím součet pokut a výpadek přijmů.
A o cimře asi není co dodat casa tam měla 100% svého cloudu my sotva 8% a to máme mít těch dodavatelů 60? Umíte si to představit.
A hlavně ekonomicky je rack jediná smysluplná jednotka když použiju PDU pro 22 serverů je cena 800 per port když tam dám jeden tak 17000, když koupím dva switche je cena fullracku 1200 za port když tam dám jeden bude to 30k/port. Pak ješte monitoring prostředí, firewall (často mikrotik v bridge modu co jen chrání management karty přes tím aby bylo volně přístupné z internetu)
takže jestli je box v ceně 100k umístěnej se setup fee 2500 nebo 80000 je sakra rozdíl. Nehledě na to že když by to vypadlo tak IP jinde nepustíte (ani s multihomingem) takže jich tam musí být vždy 21 produkčních a jedna spare záloha.
Mj jeden z hostingů který tu zde diskutuje udělal v den výpadku v Abacusu objednávku za MILION korun takže pokud jednali o cenách pod tlakem a brali cokoliv aby to bylo co nejdřív tak jen škoda na tom že si to nepoptali nevysoutěžili standartně půjdou do desítek tisíc.
Ale ano...i tohle jsem si přečetl - jinak já u Casablanca nic nemám, cca před 1/2 rokem jsem byl přizván k testování nějakého řešení založeného na BIG BLUE ONE a po testech se to zamítlo, protože i když dělali psí kusy, zaklínali se SSDéčovým polem tak to prostě na disku bylo pomalý a proto se to zamítlo mimo jiné i ta cena byla dost vysoká. Vím že tenkrát ten potenciální zákazník byl přesvědčen o záruce 100% dostupnosti a jak je vidět mají to i v těch všeobecných podmínkách....vzhledem k tomu, že jsem to nekupoval tak jsem se na sankce nedíval.
Nicméně napsat, do podmínek že dostupnost je 100% a že pokutou je jedna koruna za jeden případ a že maximální náhrada škody může být 10 korun (to tam níže taky mají ale tedy max 10000 Kč) je bezesporu pěkná sviňárna a za to Casablanca poprávu musí zkrachovat a jak zákazníci tak poskytovatelé se z toho musí poučit.
To viszejo ... par cidel za par tisicikorun, ktere zavolaji technika/iniciuji shudown .... to sou nedosazitelny naklady.
Ty samozrejme jako retardovanej negramot nedokazes pochopit ze tu pisou i lidi ,kteri tam maj trebas i desitky serveru ze ... a rozhodne nejde o majetek a skody za stokoruny ....
Apropos ... cidla v serverovne mi predloni shodila servery, protoze chcipla klima ... diky tem cidlum doslo k naprosto korektnimu shutdownu. V opacnem pripade by se povypinalo zelezo ... stale jeste "HW korektne" na vlastnich cidlech. Rozhdone ale necekam, az tam zacnou plapolat plaminky ... a nemam napady jako casa a TY, pochcat horici srv pod proudem ...
Presne, jako admin se snazim zakaznika upozornit na vsechna byt jen potencielni rizika ... a ocekavam od nej, ze to veme na vedomi. Neocekavam ze bude vsechna rizika chtit eliminovat, protoze to se proste neda. Samo, obcas dojde na vyjednavani typu "potrebuju aby to jelo 24/7" ... nacez je reakce OK, na 99,99% ... to bude stat XYZ MKc. nacez zakaznik zjisti, ze mu vlastne hodina, dve ... trebas i 20 hodin vypadku vlastne az tak moc nevadi, a ze to prezije.
O jakém narychlo schánění serverů je řeč? Smyslem redundance přece je to, že nic narychlo shánět nemusím. A samozřejmě mám pokryté i dodávky náhradního hardware s dodavatelem. Schánět železo, až když nastane průser je.... Váš průser, když se tváříte, jak to máte dobře navržené a odolné :-)
Provoz jedné IP z více lokalit technicky vůbec žádný problém není, stačí správně navrhnout svoji síťovou infrastrukturu.. Jen to samozřejmě také stojí pár korun navíc.
Mrknou na SLA u Amazonu - http://aws.amazon.com/ec2/sla/
To jsou ale kurvy, co? Co si to dovolují... :-)
zbytečná řeč, jeden z jejich zákazníků tam zařval asi za 40 serverů takže i kdyby to nakrásně ustál tak poteřebuje obratem do několika dní aspoň 40 serverů protože v té době redundanci nemá.
Nelze to dimenzovat redundantně na již redundatní řešení, a tu v diskuzi (ne já) je pár lidí kteří si mákli a ukázali case záda . tj že se os své klienty perfektně postarali. Můžu mít k nim profesně jakékoliv výhrady ale tohle zvládli lépe než casa.
Jo mrkni níže...vyhrábnul jsem pro zajímavost všeobecné podmínky BIG BLUE ONE a je tam zcela jasně dáno že dostupnost HW=100% a dostupnost konektivity je 99.95% měsíčně. Takže si umím spočítat, že bych tedy měl mít výpadek maximálně 20 mnut měsíčně.
Nepočítají se do toho nějaké předem hlášené údržbové práce, a vyšší státní moc. Jinak by to mělo frčet fakt 100%. !!!!!
Takže tak.
No a jestli jsou všeobecné podmínky papírek co se zaleskne...pak tedy nevím.....
To jste si fakt mysleli, že ty VPP nikdo nevyhrábne ?
no tak i když nejsem profesionál, tak mě je jasné, že když proleju serverem vodu, tak už ho nechci. že to je drahý sem ani netahejte - snad tu máme pojišťovny a to si platíte tak jako tak.
pak mě je jasné, že je lepší vyjít s pravdou ven, protože cokoliv jiného situaci akorát zhoršuje - toto jsem zjistil již někdy na základní škole.
jsem jen malý freelancer - přesto od pondělka nepřestal zvonit mobil a chodit sms. nemám na to tým lidí - aby jeden odklonil volající, další řešil obnovu serveru a další řešil běžný provoz.
přesto se mě podařilo stabilizovat situaci.
takže prosím pohádky o tom, jak se casablanca hroutí pod dotazy klientů jsou fakt komické. ono asi těm adminům, co to tam měli nikdo nevolal?
stačilo říct pravdu bez jakékoliv prognozy. ušetřili by si hodně telefonů. minimálně od takových amatérů jako já, kteří svým laicky posoudí, že na to serou a jdou si obnovit server ze svý neprofesionální (ovšem ale konzistentní) zálohy jinam a casablancu nechají svému osudu. pak by stačilo, když obchodník pošle slušný omluvný email a třeba by se dalo uvažovat i o další spolupráci, protože co si budeme povídat nehoda se stane a ať se snažíte sebevíc, průser se může skrývat za každým rohem.
ovšem to je jen pohled amatéra... profíci to dělají patrně jinak.