Takze Alza vlastne zadne DR nemela (a nejspis nema). Tohle co popsal, je absolutne neuveritelne, spolehaji na to, ze to proste pojede a nestane se nic neocekavatelneho. A to jsem doted myslel, ze naprosty zaklad je db replikovat online nekam jinam, ukladat logy a sem tam udelat dump/snapshot. No, nevadi, evidentne nemaji zadne IT, jen lidi, co (nejak) pisou kod.
Hele s těmi DR testy je to takové všelijaké...
Ano, v řadě firem se DR testy dělají, jenže vždy to jsou testy řekněme očekávaného stavu typu "mám dvě datacentra, jedno natvrdo spadne, jak mi to přejde do druhého" nebo "spadlo mi pole, jak to obnovím ze zálohy". Tohle je samozřejmě užitečné, jenže pořád tu máte obrovskou variabilitu a podle zákona schválnosti se skutečný výpadek trefí zrovna do situace, která nikoho nenapadla (ve stylu spadne X způsobem, který ještě nikoho nenapadl a jako jediný existující naruší nejen Y, s čímž se počítá, ale i Z).
Přijde mi, že i v Alze šlo o podobnou situaci - selhala věc, branná za velmi slušně redundantní a ještě tím nejhorším způsobem... Jistě se poučí, ale to neznamená, že nevyplave něco dalšího :-(
Co je na tom neuvěřitelného? Vrazili do větší peníze do (zřejmě) značkového HW, takže právem očekávali, že bude fungovat. A firmu, která má prověřený a otestovaný DR plán bych taky rád viděl - předpokládám, že v nějaké takové pracujete. A co se replikace týká, taky není všemocná - nám třeba selhalo primární i záložní datacentrum současně.