nevím, jestli chci od síťového operátora slyšet větu "všechny části naší pevné síti jsou navzdory přetrvávajícímu masivnímu výpadku Facebooku plně funkční". To je přece samozřejmost, že problém vně ustojí a zvládnou.
Už jen to, že náprava jim trvala několik hodin je na pováženou. Nejprve se vše snažili hodit na dodavatele a nahnali lidi do Středokluk, pak si teda všimli, že si dělají vlastní interní DDoS kvůli neschopnosti přeložit DNS dotazy na facebook.
U Facebooku byla situace také velice vtipná, smazat si všechny BGP trasy je majstrštyk. Tady jde vidět, že i v distribuovaných systémech existuje pořád SPoF. Mít jedno AS, mít jeden proces na správu BGP je rizikové, a bylo to vždy rizikové. I v ČR jsem potkal minimum firem s více AS a řešením rizik při selhání konfigurací.
Out of band management je základní prvek stabilní infrastruktury, nemohu konfigurovat cestu, kterou zároveň pro konfiguraci využívám.
U Facebooku by mě zajímaly interní historky, jak se vlastně dostávali do DC, když jim nešely vůbec vlastní systémy, to veškeré zabezpečení vzalo za své. Může z toho být spousty zajímavých ponaučení.