Child pages
  • FAQ Monitoring und Alarmnachrichten
Skip to end of metadata
Go to start of metadata

FAQ Monitoring und Alarmnachrichten

Von wo aus wird überwacht?

Wir überwachen von mehreren Standorten aus.

Betriebskritische Dinge (World-Anbindungen aller Housing-Standorte, DNS) werden von überall aus überwacht.

Wichtige Dinge (Geschäftskritische Server von VIP-Kunden) werden von allen jeweils anderen Standorten aus überwacht.

Weniger kritisches wird nur jeweils von 1-2 Standorten aus überwacht.

Hier eine Liste der Überwachungsserver:

KurznameArt (s.u.)Standort, AccessUmgebung, AnbindungBemerkungen
MonitorDCIcingaInnsbruck Rossau CityNetVirtueller Server auf ITEG-Hardware bei CityNet Hall 
MonitorRWIcingaInnsbruck Rennweg IKBVirtueller Server auf ITEG-Hardware bei IKB 
MonitorIXIcingaWien InternexVirtueller Server auf angemieteter HW bei Internex 

Htz1

IcingaDeutschlandVirtueller Server bei Hetzner 
LA1IcingaLos AngelesVirtueller Server bei InizHousing-Center-Wartungsarbeiten wenn an US-Westküste nacht ist.
-lokale Resourcenüberall lokalPhysische und virtuelle Server, FirewallsFreier Platz auf HD-Partitionen, RAID-Zustand, Netzteile/Stromversorgung, freier RAM, maximaler RAM eines Prozesses, ...
RIDIRIDInnsbruckVirtueller Server im ITEG-Büro, Glasfaser von IKBDerzeit halb ruhend wegen Netzwerk-Hickups zwischen IKB und UPC bzw. auch anderen

Wie reagiert man auf Alarm-Nachrichten? Wie erkennt man Fehlalarme?

Glückerweise sind die meisten Alarm-Nachrichten Fehlalarme, die von geplanten Wartungsarbeiten seitens ITEG bzw. vor allem seitens der Housing-Anbieter und der globalen Carrier herrühren.

Leider gibt es nur eine zuverlässige Erkennung von Fehlalarmen: Eine händische Prüfung des angeblich gestörten Dienstes.

Typische Zeichen für Fehlalarme sind:

  • nächtliche Störungen von weit entfernten Überwachren, wobei sich "nächtlich" relativ auf die jeweilige Zeitzone bezieht
  • Alarm kommt nur von einem Überwacher und nur einmalig

Zeichen für echte Probleme sind:

  • wiederholte Alarme
  • Alarme von mehreren Standorten aus zugleich
  • werktags 6-24h (nach mitteleuropäischer Zeit)
Alle Alarm-Nachrichten tragen als Absender und/oder am Anfang des Textes den Kurznamen des alarmierenden Überwachers, siehe Spalte "Kurzname" in der Überwacher-Tabelle weiter oben.

Welche Arten von Alarmnachrichten gibt es?

Grundsätzlich können E-Mails und SMS verschickt werden.

Der Versand von SMS verursacht aber Kosten und wird nur im Rahmen von besonderen Vereinbarungen aktiviert.

Leider ist es derzeit nicht möglich den Verteilerkreis von der Uhrzeit abhängig zu machen.

Welche Arten von Monitoring gibt es?

Icinga (Nagios-Fork)

Icinga ist ein fork des Open-Source-Monitoring-Klassikers Nagios.

Neben Standard-Plugins zur reinen Verfügbarkeits-Feststellung von Standard-Diensten kommen auch von ITEG entwickelte individual-Plugins zum Einsatz, etwa zur Überwachung von Status-Webseiten von Applikationsservern.

Lokale Resourcen (alle Server)

Auf jedem Server wird der freie Plattenplatz überwacht. Üblicherweise erfolgt die Problem-Information aber nur im Rahmen der Berichte des nächtlichen Backup-Laufs, die nicht jeden Tag sofort gelesen werden.

Auf den meisten Servern wird der verursachte Netzwerktraffic im 5-Minuten-Rythmus protokolliert, aber nur bei Bedarf analysiert.

Punktuell wird auch die Systemlast überwacht.

Lokale Resourcen (physische Virtualisierungs-Server)

Auf den physischen Virtualisierungs-Servern wird noch einiges zusätzlich überwacht:

  • der freie Arbeitsspeicher
  • der maximale Arbeitsspeicherverbrauch einzelner Prozesse
  • der Zustand der RAID-Verbünde (=Erkennung von kaputten Festplatten)
  • wo möglich (auf allen Servern für VIP-Kunden) die Netzteile

RID (Remote Intrusion Detection)

Auf besonders wichtigen Servern setzen wir Intrusion Detection ein.

Da eine lokale Intrusion Detection im Fall eines erfolgreichen Einbruchs potentiell selbst kompromittiert werden kann überwachen wir hier auch die Überwacher, und setzen zusätzlich eigene Checks ein.

Neben Standard-Mechanismen (Prüfsummen wichtiger Dateien) können auch Namensauflösungen, svn-Checkouts, sowie bei Bedarf individuelle Dinge (z.B. Formular auf PCI-DSS-relevanter Webseite) auf unerwartete Änderungen geprüft werden.

 

  • No labels