Názory k článku
Uzel NIX.CZ postihl částečný výpadek, došlo k poruše portu

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

Podle hodnocení
Podle vláken
Nejnovější

25. 7. 2018 17:33

Filip Jirsák

Promiňte mi tu upřímnost, ale píšete jako hlupák. Samozřejmě, že divně se chovající port je ve skutečnosti port, který selhal. Stále ale nechápete, že je rozdíl mezi faktickým stavem (port selhal) a zdánlivým stavem, který plyne z nějakého monitoringu. Pokud port selže „vhodným“ způsobem tak, že přes něj část komunikace jde, je obvykle těžké to detekovat.

Zkuste si místo automatického monitoringu představit sám sebe. Třeba z grafů provozu zjistíte, že je něco špatně, tak to začnete zjišťovat. Pingnete přes všechny porty a všude se odpověď vrátí ve stanoveném limitu. Prohlásíte na základě tohohle testu „aha, port 8 selhal“? Asi těžko, budete si dál myslet, že ten port funguje.

Ono platí takové pravidlo, že když se něco po…kazí tak, že to úplně vyhoří, spadne, odpojí se atd., je to vlastně výborný stav, protože přesně víte co a proč nefunguje. Bohužel ne všechny chyby jsou takhle disciplinované.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 15:37

... (neregistrovaný)

Cendrova armada opet uraduje?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 15:12

Danny

Skutecny problem (kdy dochazelo ke ztratam) byl jen v case cca 14:30 - 15:40, nikoliv sedm hodin. A ano, jeden port muze negativne ovlivnit ledacos, pokud se nechova v dusledku nejake ne zrovna bezne zavady korektne a je soucasne aktivni soucasti linkove agregace.

Rozpusteni clenove NIXu v planu dozajiste nemaji - neni pro to rozhodne zadny racionalni duvod :-) Traffic vyjadreny (v tomto pripade narozdil od jinych alespon nezavisle pripojenymi cleny overitelnym) cislem neni vsechno... narozdil od jinych "moznosti" jde porad o uzel rizeny (pripojenou) komunitou.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 13:23

Tomáš (neregistrovaný)

Přéčinou je chebná elektrónka E13 z našeho podniko Katóda Olomóc. Přepojuje se k omlově e naša fabreka.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 16:33

Danny

SPOF by to byl, kdyby ten port odesel a provoz nemel kudy jinudy jit. Coz rozhodne nebyl tento pripad - afektovana byla pouze cast provozu - ta cast, ktera mela tu smulu, ze v ramci linkove agregace mela projit onim problemovym propojem (a ktere nejake data take prenasel - jen bohuzel z nejakeho duvodu ne vse, co mel). Kdyby se to rozpadlo uplne, nikdo by si niceho ani nevsimnul.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 15:54

Filip Jirsák

Ta vaše reakce zase vypadá, že nevíte, co je to SPOF. To „F“ v té zkratce znamená „failure“ nebo-li „selhání“. Většina řešení proti SPOF je založená na tom, že se právě to selhání detekuje a přepne se na nějaké záložní řešení, vyřadí se daná věc z aktivní služby apod. Podle různých popisů závady na tom portu to ale vypadá, že ten port neselhal, ale jenom se choval divně. Když vám ze SPOF to F chybí nebo nevíte, kde je, těžko podnikat nějaká opatření.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 18:16

Danny

Na linkove agregaci na druhe vrstve, kde je nejspis (dnes uz bezny) adaptivni load-balancing? (o nejakych komplexnejsich moznostech modernich zarizeni nemluve?) :-) Ne, ze by to neslo dopocitat, co kudy zrovna potece - ale to se muze kazdou chvili zmenit - tudiz by se to musel neustale kontrolovat, zda zvolena kombinace skutecne cili, kam cilit ma a merici algoritmus podle toho soustavne upravovat... ne, skutecne to neni tak jednoduche vygenerovat testovaci provoz dle te specifikace - jak se na prvni pohled muze jevit a postavit na tom nejake spolehlive mereni. A i tak se muze stat, ze shodou blbych nahod ten testovaci provoz bude ten, co zrovna projde (jako viditelne prosle nejaka minoritni cast provozu v dane problemove lince).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 23:17

xxx (neregistrovaný)

Brno? Kde že to je? :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:37

Danny

Proc nebyl problemovy port z poolu automaticky vyrazen se samozrejme zjistuje - nicmene ta analyza asi chvili potrva. K podobnym incidentum obcas dochazi i v jinych velkych uzlech v zahranici - vse je ostatne zavisle na nejakem software (nad pomerne komplexnim hardware) a zadny software nikdy neni bez chyb a v okrajovych pripadech nemusi vse zafungovat dle ocekavani - tak uz to v IT holt chodi.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 23:52

xvd7 (neregistrovaný)

Nekde na strednim vychode.
Au au .. .nebijte me tou salinou.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 16:28

Danny

K saturaci zadneho paterniho propoje nedoslo a to ani behem reseni problemu - kapacitni rezervy jsou dostatecne. Statistiky paternich linek jsou pripojenym clenum pristupne, tak se to tom muzou sami presvedcit (coz "jinde" zvykem rozhodne neni).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 18:24

Danny

Ale take nema smysl vymyslet radoby-odborne pusobici konstrukce o tom, jak by to slo resit. Nikdo se po zadech neplaca - NIX.CZ problemy i na socialnich sitich verejne priznal, nic nezatloukali a i smerem ke clenum sla samozrejme podrobnejsi informace a posbirali se relevantni data a cele to dale resi s dodavatelem technologie - a to nikdy neni na jedno odpoledne (coz vi kazdy, kdo s podobnymi technologiemi dela).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 21:57

Danny

Teoreticky jde ledacos - treba se po vzoru zahranicnich IXu posunout k pokrocilejsim techologiim interne postavenymi nad L3 infrastrukturou (tzn. napr MPLS/VPLS), kde jsou vetsi moznosti i u te diagnostiky. Komplexita techto techologii ale nicmene muze prinest problemy nove, jine - a navic jak uz padlo, ani zahranicnim uzlum nevyhybaji. Nic neni dokonale, aktualne je dulezita detailni analyza vsech okolnosti incidentu a to rozhodne neni jednoducha vec. Podstatne je, ze situaci se v rozumne kratkem case podarilo stabilizovat a uzel dovest do stavu, kdy je provoz vymenovan bez problemu. Ona i historie NIX.CZ pamatuje vypadky vyrazne vetsi a veselejsi...

A ano, cena je v dusledku jednim z faktoru, co hraje vyznamnou roli. U vyse zmineneho predevsim za softwarove licence (kdy nelze opomijet ani fakt, ze oproti NIX.CZ jsou u zahranicnich uzlu oprenych o zminene technologie koncove ceny vyssi, tedy maji lepsi financni moznosti). A samozrejme i v tomto bode je rozhodujici vule clenu - kteri o techto vecech vrcholove (zkrze schvaleny rozpocet) rozhoduji. V zasade ale soucasne reseni neni duvod rozporovat ve sve podstate, prostor pro zlepsovani je samozrejme vzdy (a urcite se resi prubezne).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2018 8:24

Jiri Prochazka (neregistrovaný)

To my v Peering.cz se takhle přiznat bojíme.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 22:02

Danny

Dve platformy ...a pak ti je "omylem" propoji switch nejakeho pripojeneho ISPcka k oboum platformam, protoze routery a porty do nich jsou pekelne drahy... takze se setri :D Samozrejme, ze neco muzou pochytat ruzne security konfigurace na vstupu, ale to je opet o tom, ze v jeji implementaci muze byt chyba a ochrana na vstupu nemusi zafungovat presne dle ocekavani :-) Aneb nic neni dokonale.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 22:29

Danny

Ja to uchopit zvladnu - ale realita je holt dnes takova, ze L2 segment prakticky jakekoliv peeringove platformy mas dnes roztahanej na hodne velke geograficke vzdalenosti od samotneho uzlu. Ethernet neroztazeny dal za hranice propojovaci platformy je z kategorie sci-fi :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 22:10

sadasd (neregistrovaný)

dekuji panum Dannymu a Krskovi, udelam si domaci ukol
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 19:29

*** Top Secret *** (neregistrovaný)

"A ano, jeden port muze negativne ovlivnit ledacos, pokud se nechova v dusledku nejake ne zrovna bezne zavady korektne a je soucasne aktivni soucasti linkove agregace."

... to můžu potvrdit .. zrovna nedávno jsem řešil odumřelou kartu jejíž jeden port byl součástí port-channelu ...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 18:27

Filip Jirsák

Já nic neobhajuji, já vám jenom vysvětluju, že mezi „něco je špatně“ a „vím, že je něco špatně, a dokonce i vím, co je špatně“ je rozdíl. V předchozích příspěvcích jste to totiž zaměňoval.

snad se shodneme aspon na tom, ze ping skutecne nestaci
co treba skutecny testovaci provoz mezi jasne urcenymi A a B a C, dorazi/nedorazi a podle toho jednam
Zatím se na tom evidentně neshodnete ani sám se sebou. Ping je totiž přesně ten „skutečný testovací provoz“. A pokud jste myslel spíš „skutečný“ než „testovací“, uvědomte si, že byste pak na 100 Gbit/s portu pak mohl přenést jen 50 Gbit/s skutečného provozu, protože byste těch zbývajících 50 Gbit/s potřeboval na přenos toho ověřovacího provozu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 22:12

Michal Krsek

Dane kdyz pisu dve platformy, tak myslim dve platformy :-) To samozrejme znamena, ze nemas ethernet roztazenej dal za hranice propojovaci platformy. Verim, ze to zvladnes uchopit.

A proto pisu, ze je to drahy jak pro ISP, tak pro propojovaci uzel.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 7. 2018 9:21

Otto M. (neregistrovaný)

Ja k tomu mam laicky vstup. Mame v ramci nadnarodni korporace dve datova centra asi uz 20 let. Jedno primarni, druhe zalozni u nas v CZ. Primarni stoji na 10-15x tolik jak na capexu, tak na opexu. To v CZ je surove DC ala devadesatky, tam jsou snad jeste huby, obsluha jeden clovek. Kancelarska mistnost s 5 racky, mala mistnost UPS, jeden agregat vedle budovy. To v Nemecku je TIER 3/4, dva dodvatele elektriny, podzemni nadrze na naftu na 14 dnu provozu. Pravda, bezi tam slozitejsi veci, ale jednotlive provozy a dcery maji vzdy na poradach pouze jeden pozadavek, aby byly jejich servery umisteny v CZ.
Statistika je neuprosna, matka mela za poslednich 10 let asi 30 vypaadku, z toho dva dele nez je pracovni doba kritickych oddeleni, v CZ zatim bez vypadku, krome dvou planovanych.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 21:44

Michal Krsek

Technicke reseni situace je, ze mate dve nijak nepropojene propojovaci platformy od ruznych vyrobcu.

Co je pomerne neprakticke z hlediska nakladu jak pro propojovaci bod, tak pro zucastnene site.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 23:00

Michal Krsek

Jeste stale existuji propojovaci body, kde je L3 prvek koncovych siti v propojovaci infrastrukture povinny :-)

Je to "jenom" o nakladech, ktere jsou ochotne zucastnene site nest. Takze uplne sci-fi to neni. Jen je to ponekud neekonomicke a prakticky vsechny site v zapadnim svete dnes povazuji roztahanou ethernet infrastrukturu za rozumnou miru risku.

Coz je OK, ony to plati, ony urcuji pravidla.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:45

asdasd (neregistrovaný)

za takovou odpoved dekuji, ja to moc dobre chapu, jsme na stejne lodi

ale na odbornem serveru zase nema cenu se poplacavat po zadech jaci jsme vzdy kabrnaci, soude podle reakci je to ode me zadano

hodne zdaru s analyzou a mene "divne se chovajicich portu" :D
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 20:50

sdfsddsf (neregistrovaný)

opet, jen to kvituji

tesim se na pozdejsi technicke detaily (viz treba obdobny clanek o vypadku DB u Alzy) no a pak samozrejme, ze se to jiz nebude opakovat
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 19:36

Danny

Vsak jde o informaci, ktera muze zajimat kdekoho a ne kazdy nutne sleduje NIX.CZ na socialnich sitich. Ja obcas napisu zpravicku treba i na root a tu a tam i neco okomentuju u jinych clanku/zpravicek... to nemuze nikoho prece prekvapit, spis tim obcas nekoho nastvu :-) Vizitku mam od lonskeho kvetna porad jednu a tu samou a zmenu zadnou v planu nemam... a uz vubec ne smerem k novinarine :D
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 22:21

Michal Krsek

Pred zavorku si vzdy vytknete, ze nakonec stejne musite nekomu verit a ze dalsim limitnim parametrem byva obvykle cena.

Napriklad pre ceske prostredi by se velmi pravdepodobne vyplatilo misto budovani dalsi nezavisle infrastruktury v Praze udelat konecne plnohodnotny propojovaci uzel v Brne.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 16:05

Petr M (neregistrovaný)

Nezní.

Pokud mám např. tři linky 100Gbps a potřebuju přenášet 240Gbps, rozdělí se to v ideálním případě na 80-80-80. Když jedna klekne, dostanu se na 100-100-0 a kapacita spadne. Což dočasně povede k zahazování paketů a opakování přenosů (pád na třeba 150Gbps) a pak se ustálí na 180Gbps, latence vyběhne třeba o 30% podle situace. Furt to funguje, i když omezeně.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:36

Filip Jirsák

tady to trvali velmi dlouho nez byl dany port vyrazen z poolu
Já bych si zase tipnul, že od okamžiku zjištění, že je port vadný, po jeho vyřazení z poolu, uběhl krátký čas. Vy si stále chybně představujete situaci, že víte, že chyba je v nějakém konkrétním portu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 7. 2018 13:04

letadlo (neregistrovaný)

Nejvetsi sranda je ze hned jak neco udelali tak se jim vypnul 100GE do google :))))))
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 20:57

sdfsdf (neregistrovaný)

samozrejme se rad "priucim" jak byste to udelal vy - nebo se jen dozvim, ze to "proste nejde"?

tak jak chapu situaci popsanou vyse - port nahodne zlobil a detekce nedetekovala spolehlive

"Podle různých popisů závady na tom portu to ale vypadá, že ten port neselhal, ale jenom se choval divně. Když vám ze SPOF to F chybí nebo nevíte, kde je, těžko podnikat nějaká opatření."

technicke reseni situace (tedy bez ohledu na cenu apod)?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:46

dsfsdfsd (neregistrovaný)

pro jistotu- neminim tim vase reakce, ale jine..
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 16:15

Martin Kalenda (neregistrovaný)

to byl extrém, reálně to bylo nejméně o 40 minut dřív - 14:38/15:30 už to bylo tak markantní že to způsobovalo sypání ve značné míře (problémy byli hlášeny napříč zákazníky členů nixu). Na webu bylo ticho, pravda twitter ani fb mě jako dobrej kanál nepřišel.

Chtěl bych vidět následnej risk u NUKIBu až se bude papírově simulovat výpadek NIXu:-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 20:45

asdasd (neregistrovaný)

nemyslim ze je nutne "hystercit" a odhadovat testovaci provoz v techto radech

ale na druhou stranu payload pingu neni dostatecny
a tento incident je toho nakonec jasnym dukazem - dle vasi vlastni argumentace
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:19

sadasdasdas (neregistrovaný)

jasne, takze ja mam jakysi load balancing a provoz poslu na port, ktery nefunguje

pro dany provoz je takove reseni jaksi bez redundance

a ja nerikam, ze je mozne jako HAL9000 (a navic spravne) urcit budouci selhani portu ale zda se, ze tady to trvali velmi dlouho nez byl dany port vyrazen z poolu
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 18:52

Martin Semrad (neregistrovaný)

Danny, ty seš nově tiskový mluvčí NIXu?

Píšeš sem článek, diskutujes.

Máš vizitku nebo to zatím děláš na dobré slovo?

Pěkná práce!
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 15:31

asdasdad (neregistrovaný)

nemejte mi to za zle ale to vase

A ano, jeden port muze negativne ovlivnit ledacos, pokud se nechova v dusledku nejake ne zrovna bezne zavady korektne a je soucasne aktivni soucasti linkove agregace.

zni jako SPOF
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:15

dsfsdf (neregistrovaný)

ma to znamenat, ze nekdo ceka na telefonu az jim nekdo ohlasi divne chovani portu?

divne se chovajici port je failed port - prominte mi tu uprimnost

F tam tedy bylo, i kdyz to mozna soudruzi nevedeli hned
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 17:39

sdfsdfsdf (neregistrovaný)

vy pisete jako technik, ktery se obhajuje managementu proc to trvalo tak dlouho
a ja muzu i chapat, ze port nehorel, takze to nebylo zcela jasne

presto jako "uzivatel" doufam, ze se monitoring zlepsi, snad se shodneme aspon na tom, ze ping skutecne nestaci

co treba skutecny testovaci provoz mezi jasne urcenymi A a B a C, dorazi/nedorazi a podle toho jednam
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 7. 2018 14:48

Stejskal (neregistrovaný)

Podle grafu to trvalo asi 7 hodin během špičky.

To hoši nemají věci alespoň n+1?

Nebo jeden port může ovlivnit kvalitu "národního" ixu?

Včera traffic 390 Gbps, není čas NIX rozpustit?
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Aktuality

Policiie vyšetřuje kyberkriminalitu, podklady sbírala i v rozhlase. V případu zadržela dvě osoby

V Česku se i díky 3D tisku rozjela výroba ovladačů pro letecké simulátory

Čip z Česka se začal masově vyrábět. Tropic Square jako první na světě nemá tajnosti

Názory k článku Uzel NIX.CZ postihl částečný výpadek, došlo k poruše portu

Aktuality

Policiie vyšetřuje kyberkriminalitu, podklady sbírala i v rozhlase. V případu zadržela dvě osoby

V Česku se i díky 3D tisku rozjela výroba ovladačů pro letecké simulátory

Čip z Česka se začal masově vyrábět. Tropic Square jako první na světě nemá tajnosti

Dále u nás najdete

Průměrná mzda se utrhla ze řetězu. Vzroste i ta minimální

Názory k článku
Uzel NIX.CZ postihl částečný výpadek, došlo k poruše portu