Pokud by totiz po vypadku elektriny najely UPS, tak v okamziku toho "prepeti" by vse jelo na UPS a UPSka z principu neco takovyho odfiltruje. Navic kazdej spotrebic zvladne urcite +30% (dlouhodobe, kratkodobe mnohem vic).
Spis to vypada, ze jim UPSky nenajely, nebo jen z casti => servery to misto za proklamovanych 20 minut vysaly za 3 (to by odpovidalo tem 3 minutam po kterych zaznamenaly vypadek proti rozvodne) a pak to jednoduse zdechlo, protoze za 3 minuty se vetsina serveru korektne vypnout nestihne.
No a v dalsi etape bych to videl tak, ze jelikoz se servery nevyply korektne, tak zustaly ve stavu "zapnuto" => po nabehu napajeni jim to parkrat vyrazilo jistice => nekdo tam musel vyrazit poodpojovat cast serveru aby se to zapinalo postupne.
No a kdyz to zaclo konecne vsechno startovat, tak se vzhledem k nekorektnimu vypnuti zacly spoustet veci jako fschk a spol, coz muze klido bezet i nekolik hodin ...
Klasicky je samo blbost dimenzovat UPS na 20 minut provozu. Vetsinou se to navrhuje na 10, s tim, ze po 1-2 minutach startuje diesel a pokud do 5 minut nenastartuje, poslou UPSky shutdown, s tim ze jak se jednotlivy stroje vypinaj a klesa odber, tak ty nejpomalejsi maj klidne 15 minut nez dojde stava.
Samo to pak taky znamena (pokud mi jde o bezpeci dat) ze po nabehu site se jeste par hodin nic nezapina, protoze se nejdriv musej ty UPSky zase nabit. Napr u meho zakaznika vypadek = min 2 hodiny (nez se nabijou UPSky).
Jinak by to pri opakovanym vypadku slo do kopru vsechno.
Nic takového v datacentrech není. Vypnutí serverů je nepřípustný stav. Je to maximálně tak následek havárie.
Datová centra jsou konstruovaná k bezvýpadkovému provozu. Přeruší se napájení ze sítě, drží to UPSky po dobu, než naběhne náhradní zdroj napájení = diesel.
Vypínání serverů funguje možná někde ve firmě s UPSkou pod stolem, kde se nejedná o kritické systémy, kde stačí že se zařízení korektně vypne.
Po siti samozrejme, lepsejsi UPS maji sitovy modul a do serveru se nainstaluje prislusna aplikace, ktera na siti posloucha. Sit pro tuhle komunikaci muze byt oddelena. Funguje to tak, ze UPSka "vi" ktere servery jsou k ni pripojene (to se ji rekne pri konfiguraci) a pak samozrejme vi zda nektery jeste bezi ... pripadne se da nakonfigurovat pro kazdy stroj zvlast nejaky extra cas, po ktery uz neodpovida, ale UPSka ho ma jeste povazovat za bezici. Po te co jsou vsechny stroje off se muze UPSka vypnout sama (aby se nevybijely baterky).
Nevis o cem mluvis
- UPS v datacentrech jsou temer jiste typy s dvojitou konverzi -v podste se TRVALE nabiji baterie a vyrabi se vystupni napeti - vypadek proudu pak neni zadne preninani ale jen se prestane nabijet. Z toho vychazi, ze nemuze dojit k nenajeti UPS protoze ty uz jedou
- v datacentrech neni nic jako vypinani serveru pri vypadku proudu - jede se z UPS, kterych je minimalne N+1 (pro provoz jsou potreba 4 tak je jich tam 5), ups zajistuji provoz na par minut a potom je zaskakuji dieselagregaty (zase jich je N+1). Pokud tedy dojde k takovemuhle blackoutu v datacentru je to vetsinou nepredvidatelna situace a neni sance nic vypnout (pravdepodobnost ze nenajedou diesely ktere se pravidelne testuji, udrziji se v predehratem stavu... je minimalni)
Pravdepodobne se jedna o souhru dvou poruch nebo nejakeho nestandardniho provozniho stavu (na jedne z UPS zrovna probihal servis a nejaka druha neustala prepeti, v jednom dieselu se menil olej a druhy selhal...) pripadne o reakci nejakych ochran ZA UPSkama
No, neznam moc datacenter kde by meli online UPSky. Takova sranda totiz vyjde na slusnou sumicku i pro pidiserverovnu (do jednoho racku kolem 100k - mam takove dva, kazdy s 2x UPS, kazda napajena z jiny vetve, z kazdy vede napajeni do jednoho ze dvou zdroju prislusnych stroju a kazda je schopna rack udrzet sama 10 minut). Navic je treba pravidelne (a mnohem castejs) menit baterky (kdyz se na to prdi, tak muzou mit klido i 1/3 kapacity).
Nemluve o tom, ze online UPSky jsou proti prepeti (kterym telecum zduvodnuje vypadek) naprosto imunni (pokud se nebavime o par kV).
Jedna se vetsinou o bateriova pole. Ja jsem na vlastni bulvy videl takove v telefonni ustredne. Datacentra maji imho taky takova. Jinac existuji i nebateriova reseni. Ohromne setrvacniky(proste kus tociciho se betonu) ktere jsou schopny kratkodobe vykryt ohromne vykony. Pouzivaji se i u aplikaci kde ze site nelze kratkodobe ziskat takovy vykon.
Velke UPS (a to ty v datacentrech jsou) nemaji na vystupu konverzi ale jen stridac. Napeti baterii zhruba odpovida sitovemu. Ups pak vypada jako mistnost plna baterii seriove pospojovanych (spis serioparalelne kvuli vetsi kapacite) do vystupniho napeti a na konci toho je stridac.
Obnova napájení serverů nastala ještě před nahozením rozvodné sítě. Takže:
- UPS to asi opravdu neustály (vydržely 3 minuty)
- Diesely naběhly pozdě (ono dát jim 3 minuty není moc) ale 5 minut po začátku výpadku už jely (v té době rozvodná síť ještě neběžela).
- Nahození rozvodné sítě už nic nezměnilo, vše už fungovalo
Bohajeho, taky je zas každej chytrej jak rádio. :-)
Fascinuje mě, jak ty scénáře možného průběhu si nejvíc vymýšlí ti, kteří o dané problematice asi četli maximálně ve vlaku v knížce.
1. Diesel startuje v řádu sekund od výpadku napájení. A přifázuje se maximálně v řádu desítek vteřin.
2. Diesel startuje automaticky. Ruční start se používá při zátěžových testech.
Ruční nahazování při výpadku je možné snad u nějaké kancelářské budovy, kde je ten diesel 20 let starý motor z tatrovky. :)
Proto představa .. "Hele Franto, už spadly i UPSky, tak já holt jdu nahodit diesel" je z říše pohádek.
Tomu bych se tak moc nesmal. V jedne nejmenovane nemocnici a v jednom nejmenovanem meste je podobne poloutomaticke nahazovani. Nikdo neresi signalizaci z UPS a dieselagregatu na dispecink. Akorat dle normy jsou kriticke medicinske pristroje pres separatni oddelenou trafostanici.
Vím že zde není podobnost, ani náhodná (z hlediska použité technologie), nicméně mi váš popis připoměl jak to vypadalo v mnoha firmách těsně po "stažení se komunistů" (revolucí bych to nenazval, Češi na takové věci nejsou).
Banální výpadek proudu znamenal i hodinu nahazovat síť. Pkud došlo k pár "problikům" tak se často i musel server obnovovat ze zálohy. UPS pro běžné stanice tehdy také vydržely dodávat elektřinu jen pár minut a dobíjely se pak dlouhé hodiny (celý pracovní den)... Myslel jsem, že je to už dávná minulost.
Zpochybňujete revoluci. A přitom mluvíte o stažení komunistů. :-)
Být vámi, tak zpochybňuji spíše to "stažení komunistů".
Jinak délka výpadku nebývá o délce výpadku proudu. Ale o době, než servery naběhnou. A hlavně o době, kdy se postupně zapínají jednotlivá zařízení. Protože když by se nahodila celá větev napájení, všechny zdroje v té samé vteřině naběhnou s plným odběrem. Dojde k odběrové špičce a opět to vyhodí jističe.
Proto se při takovém výpadku musí manuálně shodit různé segmenty, nebo povypínat zdroje na serverech. Nahodit přívod napájení. A pak postupně zapínat jednotlivé spotřebiče (servery).
No a pak ty servery většinou bootují docela dlouho. Kor pokud se někde musí přepočítat data na discích, kde se korektně neuložila data.
17:20:00 - vypadek napajeni
17:23:00 - obnoveni napajeni
Takze jim pravdep. UPS vydrzely 3 min (od 17:17) a pak lehly.
Za dalsi 3 minuty obnovili napajeni (pravdep. z agregatu).
Spise nez prepeti to na mne dela dojem, ze na vine jsou shnile nebo poddimenovane UPS v Naganu ;-)
Rozvodna Cechy Stred neni v Malesicich, ale az v Mochove, tedy o 20 km dal.
http://www.ceps.cz/doc/soubory/Internet_16_10_2008/schema_siti_1_1_2009.pdf
http://cs.wikipedia.org/wiki/Železničn%C3%AD_trať_Čelákovice_-_Mochov
Ono jim to nespadlo najednou.
Do každého racku by měly vést dvě samostatné větve napájení a podle logu:
17:20:07 ztráta redundance napájení (vypadla jedna větev)
17:20:33 poslední zápis do logu před úplným výpadkem
17:22:42 začal nabíhat OS serveru (takže nahození elektřiny odhaduju tak na 17:22:00)
Generatory vubec nenabehli, protoze zarizeni, ktere zajistuje prepnuti z UPS na generatory nebylo pod proudem - trochu paradox, ne? ...zajimalo by me, zda pravidelne oznamovane testy techto vypadku v Naganu se skutecne deji. Kazdopadne aktualne nejdrazsi a dle vsecho nejmene kvalitni housing v CR. A to uz vubec nemluvim o tom, ze se do housingu klidne dostane kde kdo....sluzba nekontroluje, komu otevira rack a hl. neni pak schopna rack ani zamknout.
Myslim ze relaita je dost jina, nez se zakaznikum a potazmo verejnosti udava. Samozrejme vam reknou ze UPS jsou pripravene drzet proud 20 min, v praxi to jsou kvuli pretizeni minuty 3, nekdy 5, na nezatizenych UPS i 10...
Diesel nabiha hned po vypadku, ale pravda trva mu to 3-5 minut. Jeho testy se delaji, ale ne tak pravidelne jak by asi bylo vhodne, ono kdyz to 5x funguje tak si reknet ze to funguje dal a odkladate to ;) dodrozvat prisna pravidla je sice bezva vec, ale porad to tam dole ridi lidi, ne stroje...
jinak teda jsem nepotkal UPS, ktera by nebyla zapojne jak tu nekdo psal, ze se baterie neustale dobiiji a z nich se pak napaji zatez, tzn pri vypadku se jen UPS prestnae dobijet...
navic i ty UPS musi umet odfiltrovat prepeti a proudove spicky a podobne, takze souhlasim s prvnim pripsevkem, takhle to relane vypada ve vetsine datacenter...sundejte si ruzove bryle, za to prachy ...;)
No tak my jsme zrovna jeden z tech vetsich zakazniku Nagana O2 (bohuzel dotcenych vypadkem). Sice nevim, proc si mame sundavat ruzove bryle "za ty prachy", protoze zrovna O2 patri k ten drazsim hostingum a male penize se jim vubec neplati. Proto by clovek cekal, ze to proste fungovat bude. Jen me udivuje, ze i po setkani s obchodnikem O2, ktery o vypadku vubec nevedel, tak slibil vyjadreni a zatim nic. Aspon se jako vetsi zakaznik dozvime neco z internetu. Zarazi me ted spis ten pristup....
Není pomalu čas se poučit ze zkušeností Facebooku a Googlu?
Oba subjekty publikovaly design počítačů a datových center.
Viz http://opencompute.org/ a http://www.google.com/corporate/datacenter/index.html
A nemají tam žádné baterie UPSek. Google šel dokonce tak daleko, že má v sobě baterii každý server.
Každý (předpokládám) zákazník, kterého to postihlo dostal dopis s informaci co se stalo. Četl jsem to letmo. UPS naběhly, diesel ne, než se to ručně nahodilo a zesynchronizovali fáze, tak bylo pozdě. Byl tam i seznam na sekundu přesně, co se kdy dělo. Oficielní dopis, hlavička, podpis nějakého ředitele. Možná že to posílali jenom na vyžádání, kolega s někým komunikoval.
=> to by jen potvrzovalo to, ze UPSky jsou poddimenzovany pripadne ze maj baterky v haji (protoze za 3 minuty se nestihnou servery vypnout ani kdyby shutdown prisel hned) => mozna by nebylo od veci po nich pozadovat nejake kompenzace, protoze naprosto jasne nedodrzuji to, co uvadeji jako parametr sluzby (UPS pry maj udrzet 20 minut).
Ciste teoreticky bych to videl tak, ze nedodrzeli proklamovane parametry + by asi slo dokazat, ze o tom museli vedet, pripadne ze neprovadeli radnou udrzbu ... (protoze jiank by museli vedet ze UPS nevydrzi vypadek) ... a tudiz naprosto vedome a umyslne ... coz uz se da resit nejen v rovine smlouvy dvou partneru ale i v rovine trestniho prava.
Hahaha! A tu o cervene karkulce prosim!
Zdroje uz dneska i do levnych kancl keplu od tamanu jsou delany failsafe s elektronickyma pojistkama vedle klasickych uvnitr, ktere jsou schopny bezpecne vykryt kdyz zchrastne zdroji "celovodic" nebo z kondiku je delobuch.
Predpokladejme pasivni monitoring jednotlivych vetvi po segmentech kvuli izolaci a lokalizaci problemu. Minimalne vsak upsna by mela tu vetev bud shodit a servriky budou napajeny par minut z te prvni vetve nez do toho nekdo hrabne a nebo pojede dal akorat posle nakej warning.
Ale za posledni a uplne nejdulezitejsi. Kratkodobe pecky je schopno rozdejchat kdejake jisteni na trafostanici.0,5-1s v pohode.
... že se občas stane v telco byznysu průšvih.
Představte si zcela imaginární situaci:
Pokud byste ve své firmě osekali náklady na provoz a údržbu sítí za poslední tři roky "na krev" - na zlomek původních,
pokud byste dlouhodobě zanedbávali profylaktiku a periodickou obnovu baterií, klimatizací a dalších komponent,
pokud byste stále dál omezovali stavy techniků a zbytek lidí dokola motivovali řečmi o blížících se dalších kolech vyhazovů,
pokud by váš management zajímala u jakékoliv instalace/opravy jen okamžitá úspora nákladů a nikoliv náklady v horizontu 5-10let,
pokud byste prověřené technologie svých sítí nahrazovali plošně čínskými novinkami,
pokud byste provoz a údržbu svých sítí postupně outsourcovali čínské firmě (za ceny výrazně nižší, než je u nás obvyklé),
pokud byste všem svým dodavatelům praktikovali splatnost 180+x dnů a trvalou garanci nejnižších cen,
pokud by na vašem firemním intranetu zaměstnanci otevřeně psali o svém managementu jako o "nenažermentu", ...
Tedy pokud by vaše firma opravdu fungovala takto,
divili byste se tomu, že se jednoho dne náhle něco přihodí?
Vy patrně nebudete insider-mlžič, že ...
Plošný upgrade provedený modrožlutými (na levné HuHu kolovraty) vedl k poklesu technické kvality sítí. A není to jen o konkrétním hardware, ale i o způsobu jeho nasazení. To spolu s radikálním poklesem vnitřních nákladů operátora by mělo v konkurenčním prostředí vést ke stejně radikálnímu poklesu ceny pro zákazníka. Ten zde prostě není. (Druhou věcí je, že HuHu up(down)grade udělali mezitím i oba konkurenti, že ...).
Možná zde mají číňané co nabídnout, ale zatím to zde prostě nenabízí. To, co se dnes děje mezi žlutou kachničkou na hladině bublinkového rybníka a čínskou HuHu údržbou jejich sítí, je samo o sobě parodie.
Výše uvedené je jen kamínek v mozaice doširoka rozevřených nůžek mezi kvalitou a cenou služeb O-O. V normálním tržním prostředí by tento stav tolik nevadil, to zde však není.
taky sem spolehal v Karline v jedne kancelarske budove na diesel, bohuzel to tak nejak nedopadlo :-(.
vyjadreni spravy budovy je:
Po nastalém výpadku dieselový generátor jako náhradní zdroj elektrické energie Vaše prostory a technologie elektřinou nezásobil. Důvod, proč tomu tak bylo, správa v současné době zjišťuje. Z našeho pohledu se jedná buď o nestandardní výpadek dodávek elektřiny ze strany PRE, kdy dodávka jedné fáze el. proudu pokračovala a systém DA neumožnil souběžné dodání proudu i ze záložního zdroje. V tomto smyslu jsme učinili písemný dotaz na dodavatele PRE a jeho odpověď (bohužel ve velmi obecné podobě) je uvedena v příloze. Tomuto předpokladu odpovídá i skutečnost, že agregát byl v běhu, ale proud do sítě nedodával. Jako druhá příčina je možnost poruchy některého komponentu generátoru, respektive jeho propojení s napájecími transformátory. Pro potvrzení nebo vyvrácení této možnosti jsme požádali dodavatele Siemens o prověření ze strany jejich projektanta a servisního technika. Předpokládáme, že toto vyjádření bude mít správa budovy k dispozici v průběhu příštích dnů. Návazně na to budeme samozřejmě informovat i jednotlivé nájemce objektu.
taky sem spolehal v Karline v jedne velke kancelarske budove na diesel, bohuzel to tak nejak nedopadlo :-(.
vyjadreni spravy budovy je:
Po nastalém výpadku dieselový generátor jako náhradní zdroj elektrické energie Vaše prostory a technologie elektřinou nezásobil. Důvod, proč tomu tak bylo, správa v současné době zjišťuje. Z našeho pohledu se jedná buď o nestandardní výpadek dodávek elektřiny ze strany PRE, kdy dodávka jedné fáze el. proudu pokračovala a systém DA neumožnil souběžné dodání proudu i ze záložního zdroje. V tomto smyslu jsme učinili písemný dotaz na dodavatele PRE a jeho odpověď (bohužel ve velmi obecné podobě) je uvedena v příloze. Tomuto předpokladu odpovídá i skutečnost, že agregát byl v běhu, ale proud do sítě nedodával. Jako druhá příčina je možnost poruchy některého komponentu generátoru, respektive jeho propojení s napájecími transformátory. Pro potvrzení nebo vyvrácení této možnosti jsme požádali dodavatele Siemens o prověření ze strany jejich projektanta a servisního technika. Předpokládáme, že toto vyjádření bude mít správa budovy k dispozici v průběhu příštích dnů. Návazně na to budeme samozřejmě informovat i jednotlivé nájemce objektu.
Tady máte nějaké informace o Naganu+schéma jak to tam je zapojený: http://www.gts.cz/en/products/ict/ict-data-and-internet/gts-colocation.shtml