Posledni dobou je porad neco. Ne ze by se chlapci nesnazili, ale podle me si vzali moc velke sousto. Tak jak jim roste datovy tok, kterym se porad chlubi, tak stejnym zpusobem klesa kvalita jejich sluzeb. Problemy zacaly uz v patek, kdy byl rano vypadek asi 40 minut a pak to routovali buh vi kudy:
http://ftp.stulda.cz/vypadek_2010_11_05_as-day-big.png
I dnes jsem uz zaznamenal kratke vypadky. Provozuju herni servery, kde kazdy sebemensi vypadek nebo zhorseni odezvy je znat.
Doufam ze to daji brzo do kupy.
Včerejší výpadek se týkal několika serverů, které u SH máme, asi jen na 5 minut. Ale dnešní výpadek trvá již více než 30 minut (2 odpoledne, všední den - Nádhera).
Bohužel i v dnešní době se potvrzuje, že je potřeba zálohovat služby ve fyzicky oddělených lokalitách (což není díky dnešnímu množství dat zrovna triviální)...
Ha, tak než jsem tento post dopsal, tak SH začal zas fungovat.
Mam v superhostingu jeden stroj a monitoruju si ping/2sec na tri ruzne stroje (v ruznych sitich). A tech vypadku maji posledni dobou teda dost (za vypadek povazuju nefunkcni ping na vsechny tri stroje zaroven). Zrovna dneska jeden v prubehu pracovni doby trval asi 20 minut. To uz i masterinternet na tom byl mozna lepe, a ze jsem byl hodne nespokojeny. S takovou jim brzo utecu.
Vazeny zakazniku,
v dusledku selhani dvojice hlavnich routeru, ktere zajistuji propagaci SuperHosting site, doslo dnes v 13.55 k vypadku
poskytovane konektivity.
Dnes (9.11.2010) v case od 13.55 - 14:40 byla cela sit nedostupna
pro zakaznicke servery a zakaznicke linky.
Pricinou byl soubeh vice HW & SW udalosti na fyzicky oddelene dvojici
Cisco 6500/7600 routeru v datacentru Sitel a datacentru TTC.
Pro zamezeni tohoto problemu jsme provedli nasledujici
opatreni:
- byl zapojen novy Cisco 6500 router, ktery slouzi k BGP propagaci a
zajistuje nyni beh site
- v nasledujicich hodinach zapojime novou 10 Gb linku do zahranici, zakoncenou v datacentru
TTC
- provedeme kompletni audit funkcnosti HW, ktery je pouzit v
paternich a koncovych prvcich site
Nyni je situace stabilni a pricina odstranena.
V nasledujicich dnech provedeme finalni upravu topologie site a to
vzdy v case 02:30 - 05:00. Uvedene muze byt provazeno vypadky v radu desitek
vterin.
Radi bychom Vam jako omluvu poskytli slevu z odebiranych sluzeb.
Pozadavky na slevu budeme resit s kazdym zakaznikem
individualne.
Prijmete prosim timto nasi omluvu.
V pripade dotazu jsme Vam k dispozici na emailu
podpora@superhosting.cz nebo na 24x7 telefonu: +420 296 826 296.
Pripadne se na mne muzete kdykoliv obratit osobne: +420 296 347 239.
S pozdravem,
Zdenek Cendra
m: zdenek@superhosting.cz
w: www.superhosting.cz | www.datacamp.sk
[CZ]: +420 296 826 296 | Na Safrance 33, Praha 10 - Vinohrady
[SK]: +421 (2) 2025 6256 | Bozeny Nemcovej 8, Bratislava
Je fakt, ze s masterem jsem skoncil pred necelymi dvemi lety, protoze takovy hosting mi svou "spolehlivosti" pro primarni server vskutku nestacil, a tak jsem jej presunul do dialu, kde jsem zatim az na dva mensi vypadky velmi spokojeny.
V superhostingu mam svuj zalohovaci/testovaci stroj, ktery nema velkou dulezitost, ale to nic nemeni na faktu, ze spolehlivost je srovnatelna s masterem pred dvemi lety, tedy otresna.
SuperHosting na svych strankach pise: 20Gbps uplink do NIXu.
Kdyz se podivam na graf NIXu: http://nix.cz/en/summary_graph
je tam videt v dobe dnesniho vypadku SH pokles odpovidajici 20Gbps.
Z toho mi vyplyva, ze dlouhodobe jedou na hrane te kapacity a doufaji, ze to dobre dopadne. Mozna jsou ty linky 2 a kdyz jeden router ze 2 vypadl, slo to do haje, protoze jeden nema sanci to pres den utahnout. Co si myslite vy?
Co jsem slyšel, tak celkem dost AS s nimi odmítá peerovat (kvůli nedodržení peering policy), takže to tlačí přes zahraničí. Pokud by tedy vypadl router s jedním propojem do NIXu, měl ten druhý tlačit do 10Gbps přímo přes NIX a zbytek přes tranzit (kterým to jde k ostatním, kteří s nimi nepeerují, proto poslední dobou tak posilují linky na tranzit).
Ovšem jak to bylo a proč to vypadlo ví jen oni (doufám tedy že to ví :))
SuperCendra ma jen jeden zahranicni upstream a to Altrato IP (AS5580).
Zahranicni konektivitu meni co pul roku za neco jineho (Sloane pak Ha-vel pak GBXS a Cogent ted Altrato IP).
Zbytek vetsinou tlaci do NIXu pomoci svych noshledu: Ha-vel, Losan, Grapesc, N-Sys. Vypadek SH znamena vypadek uploadu na jejich linkach.
no jeste ma usmudlanej Cogent. No on ma jeden box na vsechno, takze v Po a Ut mu lehlo vsechno. SIX,NIX i ten jeho slavnej transit. Ani bych se nedivil, ze bude nekde pouzivat i statiku jenom aby tam ten svuj traffic protlacil a kdyz uz to lehne, tak je dilo dokonano, protoze se to tak pos...ze to davaji dohromady buh vi jak dlouho.
Uz od vcerejsiho dne to maji prakticky nefunkcni, takhle vypadaji stranky novy z New Yorku: http://site-perf.com/cgi-bin/show.cgi?id=btKNMjuKbKU (network timeout)
Zajimava pripominka. Nicmene z toho odkazu moc moudry nejsem. Tak jsem sel na http://site-perf.com/, vyplnil jsem tam
1) http://nova.cz/
2) Pilosoft (New York, USA)
a test probehl dle meho naprosto v poradku, tedy alespon podle statistiky kterou nageneroval:
Download time 4.4 s
Connects 30
Requests 199
apod.
Mozna, jestli jste neco predtim nezadaval spatne.
Dobry den,
pokud jste mel servery na TTC, tak se vam nedivim. Podminky tam byly nevyhujici. Rad bych vas pozval do naseho noveho datacentra 4D, kde Vam muzou kolegove ukazat vsechny komponenty datacentra, sitove prvky a jejich redundantni zapojeni. Jste zvan, staci se ozvat na muj mail.
S pozdravem Martin Zidek
Odvaha, sestrelit sit a jeste se tim verejne pochlubit... :-)
http://www.mail-archive.com/cisco-nsp@puck.nether.net/msg35112.html
On se tim moc verejne nechlubi, spis upozornuje na problem.
Tezko rict, jestli to vlozeni novyho interface byl puvodni duvod padu routeru, nebo jim ten router spadnul z jinyho duvodu a tohle se jim prihodilo az kdyz se snazili marne zvysit kapacitu zalozniho routeru. To vi asi jen oni na SH.
Podle Vašeho názoru je tedy normální si problém zjištěný v zařízení evidentně mimo produkční ověřovat projistotu na produkční části sítě s platícími zákazniky? Toto může dle mého skromného názoru napadnout jen naprosto dokonalého magora :-) V normální firmě se podobná zjištění komunikují s výrobcem používaného síťového hardware či software. Pravdou je, že síť superhostingu je natolik amatérsky vybudovaná i spravovaná, že sic majíc nakoupený hardware od Cisca, tak tento si vozí ze šedých trhů v Holandsku a nemají k němu zaplacenou absolutně žádnou podporu od výrobce, tedy ani nemají standardní přístup k novým verzím software. Pan Cendra jen holt staví svůj marketing na honění si trička nad přenesenými a uměle vyšroubovanými gigabity v grafech a maximálně na tom, že v síti má nějaké krabice s Cisco samolepkou. Pořekadlo o dobrém sluhovi a zlém pánu je ale v tomto místě zcela na místě, absolutní neschopnost administrátorů superhostingu ani sebevícznačková technologie nezakryje.
Ja jsem v tom jeho prispevku necetl, ze by to overoval na produkcnim stroji a proto to cely spadlo. Spis z toho mam pocit, ze si az o den pozdeji po padu overoval, proc se to stalo.
Tim ale nechci SH obhajovat, kazdopadne ty vypadky ukazaly velky rezervy v redundanci a spolehlisvosti jejich site. Byl to proste pruser, kterej by si nemela takova firma vubec dovolit.