Vlákno názorů k článku Výpadek TTC ochromil 200 tisíc e-mailových schránek Seznamu od J - Asi takhle, doma mam router samozrejme nastaven tak,...

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 7. 2006 13:07

    J (neregistrovaný)
    Asi takhle, doma mam router samozrejme nastaven tak, ze se pri obnoveni napajeni zapne, ale v datacentru je A) vzdy obsluha B) neni zadny velky problem realizovat to automaticky.

    V tech vice "homemade" datacentrech se pouzivaji naprosto bezne dnes uz snad vyhradne ATX zdroje, MB ... proste bezna PC. Neni problem si od kazdeho vytahnout ten spravny kusdrat a dovest jej na panel s tlacitky + pripadne pridat nejakou trivialni elektroniku ktera nebude mit na starost nic vic, nez se po nabehu napeti pocka po definovany cas (nekdy jak znamo to padne opakovane v kratkych intervalech) a pak zacne v definovanych intervalech spoustet jednotlive stroje. Signalizace uspesneho startu je pak uz otazkou trivialniho scriptu.

    Nepochybuju, ze je totez mozne u profi HW do racku. Pripadne pripada v uvahu trivialni reseni pomoci stykacu pro jednotlive racky.
  • 12. 7. 2006 8:54

    PaJaSoft
    V cene vybaveni telehousu urcite, ale zrovna APC bych za SNMP kartu nebo alespon replikator portu pro bezne UPS docela povesil za koule...:-)
  • 11. 7. 2006 19:59

    Dan Ohnesorg
    Jenze pripojovani postupne neni problem UPS, ale navaznych rozvodu. A pokud to neresi automaticky, mohli tam pritomni zamestnanci realizovat nabeh rucne.

    SNMP na UPS neni v ceskych telehausech zrovna standard. Vsichni vam budou tvrdit, ze to vubec nepotrebujete, protoze proud proste nevypadne a kdyz ano, tak jedine jeden rack se samostatnym jisticem, kde to stejne neni nic platne. Dosahnete toho jedine, kdyz budete nakupovat fakt velky hosting.
  • 11. 7. 2006 22:14

    Martin Kalenda
    Nicmene v atomove elektrarne nemaji server ktery provozuje Pepa Jetel z dolni horni pripadne z nejake zapadle horske vizky (Straz nad Nisou). Timto se ZC omlouvam je to jen podvecerni rejpnuti. Takze ano tam to technici obejdou v 90% pripadu ceskych telehouse se to zakaznik dozvi po nekolika hodinach - inu kazdy sveho stesti strujce.

    APC dela krasne PDU s postupnym nabehem cena pro cely rack od 800 czk/port. Me na nich spise vadi to, ze se do toho racku blbe davaji (vsechny telehouse preferuji 80tky misto 100vek).

    Ten general error nebo snmp server pro zakazniky by ovsem telehouse zavest meli, prece jenom to stoji par susnu.
  • 12. 7. 2006 8:53

    PaJaSoft
    Mam to nastaveno stejne, ale stejne tak mam nastaveno, ze UPSka takovy server vzbudi az ma energii na 50% provozu (tedy cca 10-15 minut) - za tu dobu servery nabehnou do stavu, ze klidne mohou jit zase na INIT 6 a ukoncit se... a jeste pulka casu zbyde.... Ano vim, jsou servery/aplikace, ktere mohou nabihat klidne 30 a vice minut, pak je to ale o dimenzaci napajeni (a jeho zalohy) do serveru...
  • 11. 7. 2006 23:16

    JA (neregistrovaný)
    Jak to je jinde:
    Pri beznem testu jednoho DSA doslo k poruse na DSA, odesel
    generator.
    V patek mel bagrista provadet skryvku zeminy, bohuzel se mu
    pokazil bagr a tak to delal v sobotu, kdy nebyli jaksi lide
    na kontrolu. Prestoze mel delat skryku zeminy tak skryval tak, ze sundal jedno 22kV vedeni, aniz by si toho vsiml.
    (ony se ty vedeni nekde sbihaji a tam provadel skryvku)
    Za chvilku sundal i to druhe, toho uz si vsiml.
    Pri najezdu druheho DSA se zadrel pastorek starteru
    (taky bezne prochazi kontrolou startu a behu),zustal v kole a sundal DSA.
    Tak to jelo cca 1hod. z baterek.
    Co myslite ze bylo pote :(
    Lokalitu radeji neuvedu, mam duvod.
  • 12. 7. 2006 7:24

    Martin V (neregistrovaný)
    To že bagrista překopne 22 kv kabel a nevšimne si toho je poměrně nereálné, mohlo by mu být nápadné proč má v lžíci vypálený díry :-D
  • 11. 7. 2006 19:17

    Jan Forman (neregistrovaný)
    Asi na tom něco bude, ale u bodu 6 je jasný zádrhel 200% je málo.
    Pulzní zdroj při zapnutí hází velkou špičku, a to při tom množství serverů musí být pěkná rána to by chtělo dimenzovat aspoň 1000%
    Připojení serverů najednou musí bejt pěknej šok pro UPS
    Ani se nedivím že to neutáhne...
    Nedivíte se že když zapnete počítač tak blikne žárovka?
    Proudový náraz je opravdu velmi velký zařízení se musí
    připojovat postupně.
  • 11. 7. 2006 21:23

    Jan Forman (neregistrovaný)
    Nojo taky mám všechny servery tak nastavený... :-) Hned se zapnou, těžko říct co je dobrej nápad.
    Každopádně obcházet tolik serverů vypnout je a pak zase postupně nahazovat asi není zrovna velká legrace. Když jsem dělal u jistého soukromého rádia tak bylo normální že celej barák jel na hranici možností a jakýkoliv výpadek proudu znamenal všechno vypnout a postupně zapínat. Velká UPSka taky vydržela 40 minut, ale zapínání pulzních zdrojů neměla v oblibě. Vždycky na ní mrklo přetížení :) ošklivej pocit obzvlášť když jsem to měl na starosti tak se člověk skoro modlil ať nechcípne.
  • 11. 7. 2006 23:16

    JA (neregistrovaný)
    Jak to je jinde:
    Pri beznem testu jednoho DSA doslo k poruse na DSA, odesel
    generator.
    V patek mel bagrista provadet skryvku zeminy, bohuzel se mu
    pokazil bagr a tak to delal v sobotu, kdy nebyli jaksi lide
    na kontrolu. Prestoze mel delat skryku zeminy tak skryval tak, ze sundal jedno 22kV vedeni, aniz by si toho vsiml.
    (ony se ty vedeni nekde sbihaji a tam provadel skryvku)
    Za chvilku sundal i to druhe, toho uz si vsiml.
    Pri najezdu druheho DSA se zadrel pastorek starteru
    (taky bezne prochazi kontrolou startu a behu),zustal v kole a sundal DSA.
    Tak to jelo cca 1hod. z baterek.
    Co myslite ze bylo pote :(
    Lokalitu radeji neuvedu, mam duvod.
  • 11. 7. 2006 23:29

    Petr Souček (neregistrovaný)
    Hm, já bych řekl, že ke správnému náběhu serverů může sloužit třeba IPMI nebo sériová konzole, a nikdo nemusí servery obcházet, ne?

    I ty nejlevnější servery za pár korun tuto výbavu mají, třeba tyhle 1U: http://www.msi.com.tw/program/products/server/svr/pro_svr_detail.php?UID=551
  • 11. 7. 2006 19:04

    Petr Souček (neregistrovaný)
    Nevšiml jsem si, jestli tady někdo dával odkaz na tiskovou zprávu APC TTC Teleport: Tam, kde nikdy nevypadne elektřina

    Je tam poměrně podrobně popsáno, jak je zálohování TTC Teleportu uděláno. Pár nejasností ale zbývá:

    Do objektu jsou přivedeny dvě nezávislé vysokonapěťové přípojky 22kV. To vypadly (nebo byly podle IL okolo 20 h plánovaně odpojeny) obě dvě? A jsou pak opravdu nezávislé?

    Podle TZ APC je zálohování zajištěno dieselagregátem s výkonem 1 MW a zásobou nafty na 10 hodin, pro překlenutí jeho náběhu jsou použity dvě UPS 240 kW, která každá zvládne až 200 % zátěž pod dobu 1 minuty. Kapacita baterií má vystačit na 30 minut provozu.

    No a co se (údajně) přihodilo:
    1. Byly odpojeny obě vysokonapěťobé přípojky 22 kV.
    2. Po dobu náběho motorgenerátoru jedou UPS jen z baterií, což pro ně není snad žádný problém, když jsou online?
    3. Naběhne motorgenerátor a po 20 minutách se přehřeje a automaticky vypne.
    4. Zátěž opět přebírají UPS (mají vydržet 30 minut)
    5. Ve skutečnosti jsou ale baterie vybité už za 10 minut, a celá serverovna zrácí napájení bez toho, aby byly servery korektně shozeny. (UPS jsou dvě, vypadly obě současně?)
    6. Poté, co po 12 minutách ve 20:47 naběhla síť, jedna z UPS nevydržela vysokou zátěž při zapnutí (Jak je to s tou 200% odolností? Jaká je skutečná zátěž při zapnutí?)
    7. Nějakou blíže neurčenou dobu tedy běžela serverovna na jednu 240 kW online UPS a druhá část byla zřejmě připojena napřímo (UPS má "Automatic internal bypass").

    Takže je nejasné, jak je to s tou nezávislostí dvou VN přípojek a k čemu vlastně jsou, jak je to s výdrží UPS (10 nebo 30 minut?) a proč jedna nevydržela náběh.

    Z hlediska uživatelů by bylo zajímavé vědět, jestli je k dipozici z těch UPS nějaká signalizace, umožňující včasný shutdown, pokud ne, tak je to myslím podstatná chyba, pokud ano, tak proč nebyly servery korektně vypnuty?

    Seznam také asi mohl a měl udělat mnohem víc - minimálně u serverů a diskových polí, které jsou kriticky závislé na korektním vypnutí, měly být instalovány malé inteligentní UPS s řízeným náběhem, které by zaručily dodávku proudu po dobu shutdownu.

    Máte někdo nějaké informace, ať už co se skutečně přihodilo a jak je to zařízené v TTC Teleport, nebo jak se to dělá jinde?

  • 11. 7. 2006 21:01

    František Ryšánek (neregistrovaný)
    Hmm, na 230V je inrush při zapnutí opravdu velký. Někteří výrobci udávají pětinásobek maximálního trvalého štítkového příkonu spínaného napájecího zdroje, podle mého je tahle hodnota stejně podle palce. Vstupní odpor vybitého zdroje prakticky odpovídá "pár drátům do zkratu", a PFC na tom nic nemění.
    Pomalý náběh (nabíjení vstupního kondíku) jsem u počítačového zdroje ještě nepotkal.

    Jakékoli konkrétní číslo ve stovkách procent je podle mého lehce nepodložené, zatížené "dělením nulou". Takové naddimenzování výkonových částí není úplně jednoduché zařídit, hlavně to není levné. Podle mého to není správný přístup k problému.

    Teoreticky by se to na straně UPS dalo ošetřit tak, že by UPS měla omezení výstupního proudu a definovaný provoz do zkratu po nějakou omezenou dobu (jednotky sekund). Těžko říct, nakolik by to bylo obvodově složité a uregulovatelné.
    Pro počítačové UPSky všech výkonových kategorií by to rozhodně dávalo smysl.
    Fakt je, že prakticky jsem takovou UPS taky neviděl.

    Terminologická poznámka: "smart" UPSky od APC jsou "smart" v tom smyslu, že zvládají komunikaci nějakým protokolem po RS232, tj. nikoli pouze primitivní diskrétní/logickou signalizaci přes režijní modemové signály sériového portu jako levnější modely. Nevím o tom, že by menší "smart" UPSky měly nějakou explicitní podporu pro omezení inrush špičky.

    Fakt je, že větší počet malých UPSek by se s inrush špičkou mohl vyrovnat lépe než jedna velká. Zejména malé offline UPSky, které obsahují klasické trafo na 50 Hz dimenzované na cca 20-50% jmenovitého výkonu, mají omezení výstupního proudu jaksi v základní výbavě :-)

    Mimochodem, to přetížení UPSky po opětovném naběhnutí po výpadku je druhotný problém. Obsluha to zjistí, obejde počítače, vypne vypínače, nahodí jističe a jede se dál. Primárním problémem je sám výpadek proudu - ten způsobil narušení souborových systémů.

    Na okraj:
    Technici "od Internetu", když si kupují server s ATX zdrojem, obvykle požádají o BIOS předkonfigurovaný tak, aby server po výpadku napájení rovnou naběhl - aby nemuseli po výpadku cestovat do serverovny.

    Mluvil jsem na toto téma s člověkem, který má na starosti nějaké méně důležité servery v atomové elektrárně - a ten naopak tvrdil, že žádá vždy server předkonfigurovaný tak, aby po výpadku napájení hlavně zůstal vypnutý - že je lepší, když obsluha servery obejde, po jednom nahodí a zkontroluje úspěšný start.
  • 12. 7. 2006 6:39

    František Ryšánek (neregistrovaný)
    Ajta - objevil jsem ve svém příspěvku nepřesnost. ATX zdroj hodí inrush špičku po výpadku i v případě, že je BIOS nakonfigurovaný, aby se stroj automaticky nezapínal. Tohle soft zapínání totiž funguje z větve standby power, která v každém případě potřebuje nabitý vstupní kondík, a ten se v každém případě připojuje silovým kolébkovým vypínačem na zadní straně zdroje, pokud ho zdroj vůbec má...

    Odpusťte mi to rýpnutí na téma Internet vs. atomová elektrárna, problém s inrushem bude v obou případech.

    Rozdíl bude až v následném zvýšeném odběru při rozběhu(nabíjení výstupu zdroje, roztáčení disků apod.). Tento odběr by neměl překročit štítkový odběr zdroje.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).