Datasety výzkumníků sdružení CESNET mění svět výzkumu kyberbezpečnosti

CESNET
Autor: CESNET
Monitorování síťového provozu je zásadní pro udržení spolehlivosti a bezpečnosti internetu. Umožňuje včas odhalit hrozby, předcházet výpadkům a optimalizovat využití infrastruktury. Vývoj účinných detekčních modelů strojového učení a umělé inteligence pro odhalování hrozeb vyžaduje kvalitní a realistické datasety, těch veřejných je však velký nedostatek.
25. 8. 2025
pr článek

Sdílet

Tým výzkumníků sdružení CESNET a Fakulty informačních technologií ČVUT v Praze zveřejnil unikátní datové sady reálného síťového provozu. Ty vznikaly v projektu „Analýza šifrovaného provozu pomocí síťových toků“ (FETA) bezpečnostního výzkumu Ministerstva vnitra ČR. V doméně datových sad se jedná o významný krok umožňující výzkum analýzy síťového provozu a detekci kybernetických hrozeb. Dva velké datasety upoutaly pozornost odborné komunity díky článkům v časopise Nature Scientific Data.

Roční pohled na síť aneb svět se mění a provoz s ním

Dataset CESNET-TLS-Year22 zachycuje anonymizovaný rok provozu národní síťové infrastruktury CESNET. Takto dlouhá a veřejně dostupná datová sada je ve světě výjimečná. Dlouhodobý sběr na rychlých sítích totiž komplikují vysoké nároky na výkon i úložiště. A proto je většina veřejných datasetů poměrně malá (maximálně pár dní), což vede k nedostatečnému testování algoritmů a nadhodnocování jejich přesnosti.

Dlouhodobá perspektiva je přitom klíčová při zkoumání tzv. datového posunu (data drift). Při něm se chování provozu změní a natrénované modely začnou na nových datech chybovat. Roční dataset umožňuje podobné změny hledat a trénovat odolnější detektory použitelné v praxi.

CESNETAutor: CESNET

„Model strojového učení se často spoléhá na trénovací data, která časem zastarávají. Změna charakteru síťového provozu, například kvůli novým útokům nebo službám, může ovlivnit přesnost modelů. Detekce pak může začít selhávat,“ říká výzkumník Karel Hynek.

Největší dataset pro detekci anomálií a predikci provozu

Dataset CESNET-TimeSeries24 vznikl pro výzkum anomálií a predikci provozu. Obsahuje přes 800 000 anonymizovaných časových řad reálného síťového provozu počítačů, serverů a jiných síťových zařízení.

CESNETAutor: CESNET

„Současné datové sady pro výzkum anomálií v síťovém provozu jsou převážně synteticky vytvořené. Na rozdíl od uměle vytvořených laboratorních dat nabízí nově vytvořená sada realistický obraz provozu. To umožňuje nejen vývoj, ale i důkladné testování algoritmů pro detekci anomálií, které mohou signalizovat kybernetické hrozby, chyby v konfiguraci či jiné provozní problémy,“ říká výzkumník Josef Koumar.

TS-Zoo a DataZoo

Pracovat s velkými datovými sadami je obtížné a zdlouhavé. Při prvních experimentech to může být zásadní překážka. Řešitelský tým se proto zaměřil na vývoj nástrojů, které práci s velkými daty ulehčí. Nástroje CESNET DataZoo a CESNET TS-Zoo umožňují jednoduchý přístup k datovým sadám nebo jen jejich správně navzorkované části. Dále pomáhají při zpracování dat, aby se výzkumníci mohli místo technických problémů soustředit na analýzu a správné postupy. Nástroje i datové sady slouží jako tzv. benchmarky pro porovnání algoritmů a opakování experimentů, což je klíčové pro ověřitelný a transparentní výzkum.

Ohlédnutí za projektem

„Projekt FETA řešilo konsorcium CESNET, ČVUT v Praze a VUT v Brně. Díky takto silnému týmu se za 3,5 roku realizace podařilo bezpečnostním výzkumem zásadně přispět hned v několika směrech. Vedle řady veřejných datových sad vznikly open source nástroje pro záchyt síťového provozu (TCI), práci s daty (CESNET DataZoo, CESNET TS-Zoo) a inovativní metody pro vyhodnocování kvality datových sad ze síťového provozu. Projekt umožnil špičkový výzkum algoritmů strojového učení pro detekci a rozpoznávání šifrovaného provozu. Dále se podařilo posunout stav poznání v oblasti využití strojového učení s ohledem na datové drifty,“ uvedl Tomáš Čejka, hlavní řešitel projektu.

CESNETAutor: CESNET

Hlavním cílem projektu FETA bylo posunout výzkumné poznatky z laboratorních podmínek do reálného prostředí kybernetické obrany, což se podařilo úspěšně naplnit dosaženými výsledky.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).