Child pages
  • FAQ Monitoring und Alarmnachrichten

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Verweis neue Homepage

FAQ Monitoring und Alarmnachrichten

Von wo aus wird überwacht?

Wir überwachen von mehreren Standorten aus.

Betriebskritische Dinge (World-Anbindungen aller Housing-Standorte, DNS) werden von überall aus überwacht.

Wichtige Dinge (Geschäftskritische Server von VIP-Kunden) werden von allen jeweils anderen Standorten aus überwacht.

Weniger kritisches wird nur jeweils von 1-2 Standorten aus überwacht.

Hier eine Liste der Überwachungsserver:

...

Htz1

...

Wie reagiert man auf Alarm-Nachrichten? Wie erkennt man Fehlalarme?

Glückerweise sind die meisten Alarm-Nachrichten Fehlalarme, die von geplanten Wartungsarbeiten seitens ITEG bzw. vor allem seitens der Housing-Anbieter und der globalen Carrier herrühren.

Leider gibt es nur eine zuverlässige Erkennung von Fehlalarmen: Eine händische Prüfung des angeblich gestörten Dienstes.

Typische Zeichen für Fehlalarme sind:

  • nächtliche Störungen von weit entfernten Überwachren, wobei sich "nächtlich" relativ auf die jeweilige Zeitzone bezieht
  • Alarm kommt nur von einem Überwacher und nur einmalig

Zeichen für echte Probleme sind:

  • wiederholte Alarme
  • Alarme von mehreren Standorten aus zugleich
  • werktags 6-24h (nach mitteleuropäischer Zeit)
Alle Alarm-Nachrichten tragen als Absender und/oder am Anfang des Textes den Kurznamen des alarmierenden Überwachers, siehe Spalte "Kurzname" in der Überwacher-Tabelle weiter oben.

Welche Arten von Alarmnachrichten gibt es?

Grundsätzlich können E-Mails und SMS verschickt werden.

Der Versand von SMS verursacht aber Kosten und wird nur im Rahmen von besonderen Vereinbarungen aktiviert.

Leider ist es derzeit nicht möglich den Verteilerkreis von der Uhrzeit abhängig zu machen.

Welche Arten von Monitoring gibt es?

Icinga (Nagios-Fork)

Icinga ist ein fork des Open-Source-Monitoring-Klassikers Nagios.

Neben Standard-Plugins zur reinen Verfügbarkeits-Feststellung von Standard-Diensten kommen auch von ITEG entwickelte individual-Plugins zum Einsatz, etwa zur Überwachung von Status-Webseiten von Applikationsservern.

Lokale Resourcen (alle Server)

Auf jedem Server wird der freie Plattenplatz überwacht. Üblicherweise erfolgt die Problem-Information aber nur im Rahmen der Berichte des nächtlichen Backup-Laufs, die nicht jeden Tag sofort gelesen werden.

Auf den meisten Servern wird der verursachte Netzwerktraffic im 5-Minuten-Rythmus protokolliert, aber nur bei Bedarf analysiert.

Punktuell wird auch die Systemlast überwacht.

Lokale Resourcen (physische Virtualisierungs-Server)

Auf den physischen Virtualisierungs-Servern wird noch einiges zusätzlich überwacht:

  • der freie Arbeitsspeicher
  • der maximale Arbeitsspeicherverbrauch einzelner Prozesse
  • der Zustand der RAID-Verbünde (=Erkennung von kaputten Festplatten)
  • wo möglich (auf allen Servern für VIP-Kunden) die Netzteile

RID (Remote Intrusion Detection)

Auf besonders wichtigen Servern setzen wir Intrusion Detection ein.

Da eine lokale Intrusion Detection im Fall eines erfolgreichen Einbruchs potentiell selbst kompromittiert werden kann überwachen wir hier auch die Überwacher, und setzen zusätzlich eigene Checks ein.

Neben Standard-Mechanismen (Prüfsummen wichtiger Dateien) können auch Namensauflösungen, svn-Checkouts, sowie bei Bedarf individuelle Dinge (z.B. Formular auf PCI-DSS-relevanter Webseite) auf unerwartete Änderungen geprüft werdenBitte beachten Sie ab sofort nur mehr die Monitoring-FAQs auf unserer neuen Homepage.