Bez NetFlow by ISP přišel o klíčového zákazníka

Název

Anomálie, kterou SNMP monitoring nezachytil, ale analýza provozního toků odhalila její příčinu a pomohla ISP udržet důležitého firemního zákazníka.

Situace

Důležitý firemní zákazník kontaktoval technickou podporu ISP s tím, že při používání Microsoft Teams dochází ke zpoždění (latencím). Správce sítě zkontroloval router, ke kterému byl tento zákazník připojen spolu s několika stovkami dalších klientů. Analyzoval data o latenci uložená v Prometheu.

Graf latence ukázal opakující se anomálii, která trvala 10 minut a opakovala se každou hodinu.

(Screenshot: latence v 30sekundových intervalech na routeru)

 Podobný trend byl vidět i u ztracených paketů a využití CPU.

Výzva

Na základě SNMP telemetrie však správce nedokázal najít příčinu problému.

Co dál?

Situace

Správce sítě se rozhodl podívat na netflow data – tedy provozní telemetrii.

  • ISP měl export netflow dat na všech CORE routerech.
  • Toky byly průběžně odesílány do centrálního kolektoru se softwarem FLOWCUTTER.
  • Díky FLOWCUTTERu mohl správce provést rychlou drill-down analýzu a najít příčinu problému.

Navíc bylo ve FLOWCUTTERu nastaveno pravidelné skenování otevřených portů. To pomohlo odhalit prvotní příčinu anomálie.



    Výsledek

    Na routeru, kde byl zákazník připojen, byla detekována anomálie – objem provozu klesal, ale počet komunikujících stoupal.

      Drill-down analýza ukázala, že se jedná o DNS provoz.

      Následně správce zkontroloval dashboard s výsledky nočního skenování otevřených portů. Ukázalo se, že jiný zákazník s veřejnou IP adresou otevřel DNS port veřejnosti. To vedlo k přetěžování routeru, které negativně ovlivnilo i ostatní zákazníky ve stejné oblasti.

      Co lze během pár vteřin zjistit o zákazníkovi:

      • Upload/download
      • Porty a protokoly specifických služeb: FTP, Telnet, SSH
      • IP adresa na blacklistu
      • Komunikace s botnetem
      • Otevřené porty a zranitelnosti přístupné zvenku

       

        Zdroje

        • Analýza netflow v Grafaně

        • Skenování otevřených portů

        • SNMP vs toková telemetrie

        Závěr

        Mnoho příčin problémů nelze odhalit pouhým sledováním SNMP telemetrie. Zde pomáhají netflow data, která poskytují hlubší přehled o tom, kdo komunikuje s kým a jakým způsobem.

        V tomto případě pomohlo i propojení netflow s dalšími daty – konkrétně skenem otevřených portů.

        ISP problém snadno vyřešil:

        • Zákazník, jehož zařízení způsobovalo potíže, byl kontaktován a upozorněn na chybnou konfiguraci.
        • Port byl uzavřen a anomálie okamžitě ustaly.
        • Pro klíčového firemního zákazníka se tím vyřešily problémy s latencí a vztah zůstal zachován.



        Zkušenost zákazníka

        “O víkendu jsme zaznamenali zhoršení služeb v pravidelných intervalech. Pomocí SNMP jsme nedokázali najít příčinu. FLOWCUTTER nám pomohl identifikovat reflexivní amplifikační DDoS útok. V pondělí naše síť opět fungovala perfektně.

        Lukáš Vacek

        Viridium

        mohlo by vás zajímat…