Navic s dvojcaty srovnavate nesrovnatelne - lidske zdroje, ktere minite tim chaosem nebyly zasazene/znicene, jsou plne operativni - jsou geograficky po celem svete, takze do zniceni Zeme se nic nedeje... jde jen o to datacentrum a tedy techniku
.Pokud generator nabehl az po temer vybiti UPS... tak je asi neco spatne v navrhu, vidte?
Jo a ty bezne "cihlicky" maji realnou kapacitni zivotnost do 3 let (v praxi spise 1,5-2) a to bez vyrazneho namahani (vypadek a vybiti na 50% kapacity tak 2-3x do roka).A centrum lze nikoli simulovat, ale realne otestovat - nejlepe pred privitanim prvniho zakaznika a pote (diky redundanci - bavime se o profesionalech, ne?) v pravidelnych intervalech testovat "po okruzich".
Což je podle mě špatně, protože DNS klient zpravidla používá odpověď z lépe dostupného nameserveru, a použité řešení vždy nasměruje uživatale tou trasou, které je pro něj horší. Jak je to v případě výpadku jedné trasy nevím, minulé úterý při výpadku to házelo adresy úplně stejně, jako dnes, to jest křížem, i když byl seznam down.
Je tam poměrně podrobně popsáno, jak je zálohování TTC Teleportu uděláno. Pár nejasností ale zbývá:
Do objektu jsou přivedeny dvě nezávislé vysokonapěťové přípojky 22kV. To vypadly (nebo byly podle IL okolo 20 h plánovaně odpojeny) obě dvě? A jsou pak opravdu nezávislé?
Podle TZ APC je zálohování zajištěno dieselagregátem s výkonem 1 MW a zásobou nafty na 10 hodin, pro překlenutí jeho náběhu jsou použity dvě UPS 240 kW, která každá zvládne až 200 % zátěž pod dobu 1 minuty. Kapacita baterií má vystačit na 30 minut provozu.
No a co se (údajně) přihodilo:
1. Byly odpojeny obě vysokonapěťobé přípojky 22 kV.
2. Po dobu náběho motorgenerátoru jedou UPS jen z baterií, což pro ně není snad žádný problém, když jsou online?
3. Naběhne motorgenerátor a po 20 minutách se přehřeje a automaticky vypne.
4. Zátěž opět přebírají UPS (mají vydržet 30 minut)
5. Ve skutečnosti jsou ale baterie vybité už za 10 minut, a celá serverovna zrácí napájení bez toho, aby byly servery korektně shozeny. (UPS jsou dvě, vypadly obě současně?)
6. Poté, co po 12 minutách ve 20:47 naběhla síť, jedna z UPS nevydržela vysokou zátěž při zapnutí (Jak je to s tou 200% odolností? Jaká je skutečná zátěž při zapnutí?)
7. Nějakou blíže neurčenou dobu tedy běžela serverovna na jednu 240 kW online UPS a druhá část byla zřejmě připojena napřímo (UPS má "Automatic internal bypass").
Takže je nejasné, jak je to s tou nezávislostí dvou VN přípojek a k čemu vlastně jsou, jak je to s výdrží UPS (10 nebo 30 minut?) a proč jedna nevydržela náběh.
Z hlediska uživatelů by bylo zajímavé vědět, jestli je k dipozici z těch UPS nějaká signalizace, umožňující včasný shutdown, pokud ne, tak je to myslím podstatná chyba, pokud ano, tak proč nebyly servery korektně vypnuty?
Seznam také asi mohl a měl udělat mnohem víc - minimálně u serverů a diskových polí, které jsou kriticky závislé na korektním vypnutí, měly být instalovány malé inteligentní UPS s řízeným náběhem, které by zaručily dodávku proudu po dobu shutdownu.
Máte někdo nějaké informace, ať už co se skutečně přihodilo a jak je to zařízené v TTC Teleport, nebo jak se to dělá jinde?
> U MySQL to není vůbec o verzi. MySQl by v takto rozsáhlých řešeních použil jen sebevrah.
Jako třeba Wikipedie se svými pár tisíci požadavky za sekundu? ;-)