Zum Inhalt springen

Monitoring

Monitoring bedeutet, den Zustand eines Systems kontinuierlich zu beobachten — damit Probleme erkannt werden, bevor sie den Betrieb stören. Linux bietet dafür eine breite Palette an Werkzeugen: von einfachen Kommandozeilen-Tools bis zu professionellen Monitoring-Stacks.

RessourceTypische Fragen
CPUAusgelastet? Welcher Prozess?
RAMWie viel frei? Swap im Einsatz?
DiskI/O zu hoch? Welche Partition voll?
NetzwerkWelcher Prozess sendet viel? Paketfehler?
ProzesseLäuft der Dienst? Wie viele Threads?
LogsFehlermeldungen? Auffällige Muster?
Interaktiv (live): Snapshot (einmalig):
htop — Prozesse ps aux
iotop — Disk-I/O free -h
nethogs — Netzwerk/Prozess df -h
iftop — Netzwerk/Host ss -tulpn
glances — Alles in einem lsof
Historisch (Verlauf):
sar — System Activity Report
vmstat — Virtueller Speicher + I/O
iostat — Disk-I/O-Statistiken

Prozesse & Ressourcen

htop, ps, free, vmstat — was verbraucht CPU und RAM?

Disk & I/O

iotop, iostat, df, du — Speicherplatz und Schreiblast

Netzwerk

nethogs, iftop, ss, sar — Bandbreite und Verbindungen

Für produktive Umgebungen mit mehreren Servern reichen Kommandozeilen-Tools nicht mehr aus. Der Standard der Branche ist der Prometheus/Grafana-Stack:

┌─────────────┐ ┌────────────┐ ┌─────────────┐
│ Prometheus │───▶│ Grafana │ │ Alertmanager│
│ (Daten- │ │ (Dashboards│ │ (Benach- │
│ sammlung) │ │ + Alerts) │ │ richtigungen│
└─────────────┘ └────────────┘ └─────────────┘
┌────┴────────────────┐
│ Exporters (Agents) │
│ node_exporter │ ← System-Metriken
│ blackbox_exporter │ ← HTTP/TCP-Checks
│ mysqld_exporter │ ← Datenbank
└─────────────────────┘
  • Prometheus: Sammelt Metriken durch Abfragen von Exportern (Pull-Modell), speichert als Zeitreihen
  • node_exporter: Läuft auf jedem Server und stellt CPU/RAM/Disk/Netzwerk- Metriken bereit
  • Grafana: Visualisiert Metriken als Dashboards, wertet Logs aus (Loki), sendet Alarme
  • Alertmanager: Empfängt Prometheus-Alarme, routet zu E-Mail/Slack/PagerDuty

Dieser Stack ist für einzelne Homelab-Server ebenso einsetzbar wie für Infrastrukturen mit Hunderten von Servern.