Já tomu nerozumím... můžete mi někdo vysvětlit, jak tohle funguje? To tu poštu nemají uloženou na pevných discích ale jen někde v operační paměti, kterou dejme tomu jednou za čas zálohujou na nějakou pásku? Jinak si totiž nedokážu vysvětlit, že v případě výpadku proudu příjdou uživatelé o všechny emaily a je nutné to týden obnovovat ze zálohy... fakt by mě zajímalo, jak a proč tyhle webmaily fungují...
No, jelikoz GB na disku je o hodne levnejsi nez GB v pameti, tak by to byl asi nesmysl :-)
Pokud byste si precetl ten prispevek na ILblogu, tak problem neni se samotnymi maily, ale s databazi. A pokud vezmete, ze budou obnovovat 200 tisic uzivatelu (coz mi tedy prijde docela hodne) tyden cisteho casu, tak to je cca 3 sekundy na jednoho uzivatele, to neni moc.
- U postižených uživatelů došlo ke ztrátě nastavení, filtrů a adresářů. V žádném případě nedošlo ke ztrátám emailů.
- Postižení uživatelé se až do pátku nemohli přihlásit ke své schránce. Nyní jsou schránky zprovozněny, nicméně některým uživatelům nebyla do schránky dosud obnovena pošta ze zálohy. U těchto užvatelů postupně obnovujeme poštu ze zálohy. Celý proces obnov by měl být hotov do pátku 14.7.2006.
a nechapu, co se tedy obnovuje - copak posta nejsou emaily?
Nebo jeste jina moznost - maji maily na disku v souborech + jmena souboru v SQL DB pro kazdeho uzivatele. A pro nektere se jim to rozsypalo a oni musi dohledavat jejich maily na discich.
maji maily na disku v souborech + jmena souboru v SQL DB pro kazdeho uzivatele - no samozrejme. Teda, neni to ciste SQL a nejde o jmena souboru, ale princip plati - metadata jsou ulozena jinak nez samotne maily.
Aha, takze se od mailu ztratila metadata a je nutne je obnovit. To by odpovidalo. Akorat soucasti metadat je i slozka, ve ktere mail byl, takze se to uzivatelum bude hazet do jedne slozky?
Mimochodem - tohle je holt nevyhoda replikace RAID radicem - pokud se na nem neco rozsype, tak je prusvih.
V tomhle smeru je replikace na ruzne pocitace vyhodna, pokud se neco rozsype, tak by se to muselo rozsypat opravdu hodne, aby to zasahlo obe repliky uzivatele.
Tezko rict co se presne stalo, mozna se ztratila jen cast metadat, mozna neco obnovuji z nejakych zaloh. Ale nekteri uzivatele pravdepodobne o slozky prijdou.
Jojo, to by se toho muselo rozsypat hodne aby to zasahlo obe repliky uzivatele na ruznych kompech ... treba by musel vypadnout proud v celem hostingovem centru. Jedina spolehliva replikace je transkontinentalni (v ramci jednoho kontinentu muze dojit k retezovemu zhrouceni elektricke site) a prece jen ty gigabitove kabely mezi kontinenty jsou stale pomerne drahe ...
a) nechapu proc vypadek proudu zapricini ztratu dat, ktera musi byt obnovena z pasek
b) i kdyby mel prumerny uzivatel Seznam mailu 10MB schranku, coz rozhodne nema, tak jde o rekneme 3TB databazi a tu pri pouziti rozumnych technologii obnovi pres noc.
Kdyz se pocitac najednou vypne, tak databazove soubory nejsou v konzistentnim stavu a musi si je databaze opravit. A je mozne, ze pri oprave nektere zaznamy vypadnou.
Je otazka, co vsechno "obnoveni" znamena - viz moje domnenka vyse.
No nevim, ale kazdej kdo neni totalni bridil ma svuj srv zalohovany alespon na tobu, nez se staci korektne vypnout. A pokud budu nekam davat srv na kterym provozuju milion emailu, tak jednim z prvnich pozadavku bude zalozni agregat.
Tudiz v pripade vypadku energie naskoci okamzite UPS a dve minuty na to diesel, ktery je to schopny udrzet v principu libovolne dlouho (dokud je nafta).
Takze bud je neschopny nekdo ze seznamu, kdo si neumi nastavit srv tak, aby se korektne ukoncil po signalizaci z UPS nebo je totalne neshopny ten, kdo srv dal tam kde je (pripadne oba).
Nojo, ale kdyz agregat najednou lehne, protoze se prehral (jako se to stalo Seznamu), tak je bridil kdo? ;-) (Odpovim si sam: Ten, kdo tam nedal dostatek agregatu, aby to sneslo i vypadek jednoho z nich :-)
Od toho je tam prece ta UPS, ta je mezi strojem(a) a privodem energie a ten privod jde do site a pripade vypadku se prepne na agregat, kterej kdyz chcipne, tak to zase jede na UPS ne ? A zakladni fce UPS neni udrzet stroj v chodu, ale umoznit mu korektne se vypnout, na coz 10 minut(vydrz bezny UPS pri maximalni zatezi) bohate staci.
Kuprikladu moje domaci UPSka vydrzi cca 1/2 hodiny, z casti proto, ze neni zdaleka strojem zatizena na 100% a zcasti proto, ze stroj se sam stara o setreni - jakmile naskoci UPS, podtaktuje se CPU, odpoji nepouzivane disky ... a kdyz UPS padne na 20% kapacity, tak se system proste ukonci.
Pokud si pamatuju, u "lepsich krabicek" s dualnimi zdroji byva obcas implementovana i prave takova vypinaci UPSka.
A co takhle si poridit rozumnou databazi? Podle mych zkusenosti prezije Oracle vypadek proudu v naproste vetsine pripadu zcela bez problemu s tim, ze po pristim startu si provede automaticke recovery, ktere zabere obvykle par minut maximalne par desitek. Pokud to nepomuze, tak manualni recovery musi zabrat vzdy a nepredstavuje zadnou extremni casovou narocnost.
Jinak v zadnem pripade by nemelo dojit k tomu, ze "nektere zaznamy vypadnou". Databaze by bud mela skoncit ve zcela konzistentnim stavu (99+%) pripadu a nebo byt nekonzistentni a pozadat o provedeni manualniho recovery.
... jestli ta tydenni obnova ze zaloh nebude spis tim, ze cely seznam je BASTL :-o) Nekde jsem cetl ze seznam ma nejvetsi linuxovy cluster v CR... No nevim.
No a potom taky nechapu usery, co maji "nejdulezitejsi maily na svete" na nejakem freemailu.
No nevim, ale nezda se mi, ze tyden obnovovat data ze zaloh je normalni doba....
Ja mel o letosnich vanocich postarano, u jednoho zakaznika jsem delal kompletni recovery IBM Informix databazi o velikosti cca 350GB a za pouziti technologii Legato a na IBM p570 jsem to dostal za 5 hodin i s kontrolou integrity... Pokud toho mel Seznam 10x tolik (cca 3TB), tak je to cca 2-2,5 dne, ale tyden... :((
Minulý týden jsem byl v klidu bo mě se se schránkou nic nestalo ale včera 19.7.06 spadl Email na seznamu znovu a tentokrát jsem přišel o všechno :-( Nebylo to nic důležitého, ale moje osobní vzpomínky o které jsem přišel mě mrzí.