Název
Anomálie, kterou SNMP monitoring nezachytil, ale analýza provozního toků odhalila její příčinu a pomohla ISP udržet důležitého firemního zákazníka.
Situace
Důležitý firemní zákazník kontaktoval technickou podporu ISP s tím, že při používání Microsoft Teams dochází ke zpoždění (latencím). Správce sítě zkontroloval router, ke kterému byl tento zákazník připojen spolu s několika stovkami dalších klientů. Analyzoval data o latenci uložená v Prometheu.
Graf latence ukázal opakující se anomálii, která trvala 10 minut a opakovala se každou hodinu.

(Screenshot: latence v 30sekundových intervalech na routeru)
Podobný trend byl vidět i u ztracených paketů a využití CPU.

Výzva
Na základě SNMP telemetrie však správce nedokázal najít příčinu problému.
Co dál?
Situace
Správce sítě se rozhodl podívat na netflow data – tedy provozní telemetrii.
- ISP měl export netflow dat na všech CORE routerech.
- Toky byly průběžně odesílány do centrálního kolektoru se softwarem FLOWCUTTER.
- Díky FLOWCUTTERu mohl správce provést rychlou drill-down analýzu a najít příčinu problému.
Navíc bylo ve FLOWCUTTERu nastaveno pravidelné skenování otevřených portů. To pomohlo odhalit prvotní příčinu anomálie.
Výsledek
Na routeru, kde byl zákazník připojen, byla detekována anomálie – objem provozu klesal, ale počet komunikujících stoupal.

Drill-down analýza ukázala, že se jedná o DNS provoz.
Následně správce zkontroloval dashboard s výsledky nočního skenování otevřených portů. Ukázalo se, že jiný zákazník s veřejnou IP adresou otevřel DNS port veřejnosti. To vedlo k přetěžování routeru, které negativně ovlivnilo i ostatní zákazníky ve stejné oblasti.

Co lze během pár vteřin zjistit o zákazníkovi:
- Upload/download
- Porty a protokoly specifických služeb: FTP, Telnet, SSH
- IP adresa na blacklistu
- Komunikace s botnetem
- Otevřené porty a zranitelnosti přístupné zvenku
Zdroje
-
Analýza netflow v Grafaně
-
Skenování otevřených portů
-
SNMP vs toková telemetrie
Závěr
Mnoho příčin problémů nelze odhalit pouhým sledováním SNMP telemetrie. Zde pomáhají netflow data, která poskytují hlubší přehled o tom, kdo komunikuje s kým a jakým způsobem.
V tomto případě pomohlo i propojení netflow s dalšími daty – konkrétně skenem otevřených portů.
ISP problém snadno vyřešil:
- Zákazník, jehož zařízení způsobovalo potíže, byl kontaktován a upozorněn na chybnou konfiguraci.
- Port byl uzavřen a anomálie okamžitě ustaly.
- Pro klíčového firemního zákazníka se tím vyřešily problémy s latencí a vztah zůstal zachován.
Zkušenost zákazníka
“O víkendu jsme zaznamenali zhoršení služeb v pravidelných intervalech. Pomocí SNMP jsme nedokázali najít příčinu. FLOWCUTTER nám pomohl identifikovat reflexivní amplifikační DDoS útok. V pondělí naše síť opět fungovala perfektně.”