Vlákno názorů k článku
Česká pošta kvůli údržbě datacenter na několik dní zavře pobočky a vypne služby od toto - Jak nekde v Kongu :D Hahaha. Tohle jsem jeste...

  • Článek je starý, nové názory již nelze přidávat.
  • 14. 6. 2022 15:09

    toto

    Jak nekde v Kongu :D
    Hahaha. Tohle jsem jeste nevidel. Tak snad jim tentokrat znova nezacnou horet baterie v UPS.

  • 14. 6. 2022 16:36

    Uncaught ReferenceError:

    neviděl? Běžná taktika v našich korporátech, schválně se podívej na zprávy od operátorů nebo z bank, kdy ti píšou o plánovaných odstávkách. Někdy to trvá hodiny, někdy dny. Víkend je oblíbený termín.

    Mimo weby je občas složité dělat CD, zejména, když člověk upgraduje na novější verzí databází/serve­rů/komponent.

  • 14. 6. 2022 16:48

    Trident

    Pokud je vse radne naplanovano a je budget da se udelat leccos. Nekolik dni je amaterismus. Ty hodiny no dejme tomu.

    Dabluv advokat ve mne: Tak na jaky bezpecnostni pruser vam prisli chlapci ze to musite delat takto brutalne :-P

  • 14. 6. 2022 23:09

    Uncaught ReferenceError:

    udivuje mě, že nevíš, co budou dělat, ale přesně víš, že to je na hodiny práce.

    Bezpečnostní průser? Vždyť tuhle odstávku dělají pravidelně každý rok v květnu/červnu.

    Je spousty aktivit, které se lépe dělají při odstávce, nemluvě o tom, že dělat úpravy infrastruktury, aktualizace firmwarů, výměny serverů za provoz s sebou nese určité riziko, že něco rozbiješ, udělat odstávku je prostě bezpečná varianta a preferovaná v momentě, kdy tu možnost máš, šetří to peníze a snižuje riziko.

  • 15. 6. 2022 4:58

    toto

    Z dnesniho pohledu uz je to mimo. Jedina velka odstavka, co jsem na 5000 serverech za 5 let delal byla upgrade postgresu na 2h. A to jen kvuli tomu, ze je slozity ho replikovat (jedna baremetal instance proste) - to jsou takove ty blbe veci z minulosti, kde souhlasim, ze to jinak nejde.
    Vsechno ostatni se dnes snazi delat master-master, cluster, nebo v loadbalancingu pres BGP/DNS, tak aby to neco prezilo. Ty veci co pises se na serverech delaji za provozu kazdy den.
    Ani to neni o budgetu, spis o schopnostech tymu a mindsetu. My jsme drzeli co nejvetsi uptime na vsem.

  • 15. 6. 2022 9:53

    Danny

    Ale jak velka ta databaze byla uz nenapisete. Tyhle polovicaty informace :-) Jasne, u mensich databazi to muze byt task na dve hodiny, zejo. A samozrejme jinak se chova Postgres, jinak MariaDB/MySQL a jinak treba Oracle. Delat podobny soudy bez znalosti skutecneho prostredi dost dobre proste nemuzete.

    Banky maji podobne odstavky zrovnatak... kupodivu kolem nich neni tolik kecu.

  • 15. 6. 2022 10:51

    Uncaught ReferenceError:

    počet serverů ale zrovna není rozhodující. Zkus si třeba dělat údržbu páteřních switchů, sice je máš v HA, ale při údržbě jeden odpojíš a během ní nemáš žádné HA a tím výrazně zvyšuješ riziko. Stejně tak to je, pokud máš zdvojená DC, při údržbě jednoho nesmíš mít další výpadek, pak můžeše dopadnou jako nedávno Master Internet. Mít vše trojmo zase není tak běžné a přináší to jisté technické problémy a vyšší ceny.

    Někdy jsi z mnoha důvodů nucený provozovat aplikace, které nemáš plně pod kontrolou nebo potřebuješ měnit infrastrukturní věci.

    Dělání plánových výpadků a nedostupností služeb patří do kategorie řízení rizik. Jak vidíš, výpadek se nedotýká samotných datových schránek, protože tam Česká pošta smluvně garantuje nějakou dostupnost, umí dělat údržbu i bez výpadků, ale podívej se jak vypadají smlouvy a ceny, které si za to účtuje.

    S železnou pravidelností, když mi někdo tvrdí, jak dělá údržbu za provozu bez výpadků, prakticky to znamená, že má vždy v infrastruktuře věci, které jsou dlouho neaktualizované, nerotuje technická hesla a klíče.

    Ono i řízení přístup do DC je problém. Pokud mám garantovat určitou úroveň fyzické bezpečnosti, je to složitější v případě, kdy mi běžně v DC běhají různí lidé a řeší servis různých věcí, snadno se v tom něco ztratí, snadno se stane chyba.

    Bavit se o tom, jestli to je zbytečné nebo rozumné má smysl, až když obě strany znají podrobnosti, což v tomhle případě neplatí, nerozumím tomu, proč tak pevně tvrdíš, že to není problém a je to amatérismus z jejich strany.

  • 15. 6. 2022 16:22

    Trident

    Uz jsem neco zazil. Asi ne jeste tolik jako DC technici kteri na sajtach travi vetsinu casu. Ale z pohledu sysadmina vcetne realnych DR pri katastrofach mezi nekolika datacentry, stehovani storagi, celych DC za ziva, zlamani vsech FC cest ke kritickym serverum, recovery po zaplavach,tornadu zemetreseni, migrace monoliticke appky s TB dat jen pomoci syncu filesystemu a naskoceni na druhe strane atd. To jen co si pamatuji.
    Ruzne slozite systemy kde vse souvisi se vsim a napric aplikacnimi tymy se resi presny postup praci a nahozeni zpatky. Dlouhe vypadky v ramci dni vzdy svedci o zpusobu vedeni IT ve firmach. Negativne. Malo lidi, nizke platy,bordel, chybejici DR planovani.
    Pokud se vse radne naplanuje, vypadky v ramci dni je amaterismus. Hodiny jsou akceptovatelne. Jsme v bananistanu tak rekneme 24h do zrudnuti manazera... Daji se narychlo pronajmout kapacity nebo primo hw na zajisteni behu.

    Snad mi nechcete rici ze ceska posta ma nekolik pater velke storage + mainframy v jedne lokaci a tohle vsechno startuje ze tmy po nejake nepredpokladane chybe:-P

    V me praxi dokazaly sluzby v ramci dni polozit jen dve udalosti. Ransomware a problem s dodavatelskym retezcem (mezitim se odporoucely systemy se specifickym non-x86 hw). Coz byla pochopitelne chyba planovani protoze se nedrzely nahradni dily a spolehalo se po americku na JIT. Takze x dni bez sluzby a nakup na ebayi... a riskovani kyberutoku neproverenymi komponenty zevnitr :-/ Pekne jsem si to za odejiteho manazera vyzral.

    Jiz jsem se odnaucil vymluvy ceskych manazeru na podobne excesy. V radnem vedenem IT na cele dni odpojim maximalne jidelnicek nebo diskusni forum "Volejte rediteli".

  • 15. 6. 2022 17:00

    Uncaught ReferenceError:

    Je to holt jejich strategie, jak se vypořádat se stabilitou, nechtějí dělat údržbu za provozu a nést riziko částečné nefunkčnosti, vše směřují na kompletní odstávku. Teď mají snad manipulovat se sítěmi, v březnu mimořádně dělali patche všech OS. Týká se to i zásahu na pobočkách, kterých mají k 600 a využívají tyhle odstávky k údržbě.

    Ne, Česká pošta používá enterprise SW, který je často tak trochu neflexibilní a rozhodli se to řešit na téhle bázi s kompletní odstávkou.

    I jako dodavatelé musíme akceptovat jejich plán odstávek a veškeré zásahy nasměrovat do tohoto okna.

    Zase tady zopakuji, co jsem už psal, nelze říct, že to dělají špatně dokud nemáš před očima podrobný plán, co vlastně dělají. Pak se o tom dá diskutovat. V opačném případě to je jen plácání v diskuzích o ničem. Znám také spousty fungující případů, ale také některé, kde to nefunguje správně.

  • 15. 6. 2022 17:19

    Trident

    To neni zrovna moudre delat v jeden okamzik ruzne veci. Jeste pres dodavatele coz se blbe kontroluje a zpetne proveruje.

    Muze nastat problem izolace problemu. Komplexita vzrusta exponencialne a z vikendovky je pak tyden.

    Nejaka nekompatibilita klient/server?Hroz­ne rad bych ten plan videl... ale to bude asi tajne/need to know basis.

    Hrozne by mne zajimalo jestli si nekdo polozi otazku: Co delat aby podobna dlouha odstavka uz nenastala.

  • 15. 6. 2022 12:24

    Rdm

    "je budget"

    Tak třeba je odstavení na víkend levnější, než zajištění nonstop provozu. Vždyť budou odstaveny systémy, které asi nejsou tak důležité, aby musely fungovat o víkendu, kdy má většina poboček stejně zavřeno.

  • 14. 6. 2022 16:57

    Trident

    Toho bych se nebal. Ty si pri tech platech je nejspis nosi zamestnanci domu aby meli jak svitit.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).