Glossar

Incident Management

Incident Management ist der koordinierte Prozess des Erkennens, Kommunizierens, Behebens und Lernens aus Produktausfällen, Leistungsbeeinträchtigungen oder Sicherheitsereignissen, die den Kundenservice beeinträchtigen. Für SaaS-Unternehmen schützt effektives Incident Management das Kundenvertrauen, minimiert finanzielle Auswirkungen und baut institutionelle Resilienz auf.

?

Wie sollten SaaS-Unternehmen Incidents nach Schweregrad klassifizieren?

Eine klare Schweregradklassifizierung ermöglicht angemessen skalierte Reaktionen, ohne Ressourcen für kleinere Probleme zu übermobilisieren. Standardrahmen: SEV-1 (Kritisch) — vollständige Dienstausfälle, die alle oder die meisten Kunden betreffen; erfordert sofortige Eskalation an die technische Leitung, Benachrichtigung der Geschäftsleitung und Aktualisierung der öffentlichen Statusseite innerhalb von 15 Minuten. SEV-2 (Major) — erhebliche Funktionsbeeinträchtigung oder ein Teil der Kunden kann Kernfunktionen nicht nutzen; erfordert Reaktion des technischen Bereitschaftsdienstes und Aktualisierung der Statusseite innerhalb von 30 Minuten. SEV-3 (Minor) — begrenzte Funktionsbeeinträchtigung, die einen kleinen Teil der Kunden oder eine nicht-kritische Funktion betrifft; wird während der Geschäftszeiten mit einer Zielauflösungszeit verwaltet. SEV-4 (Informational) — kosmetische Probleme oder geringfügige UX-Beeinträchtigungen mit einer klaren Umgehungslösung; wird als Bug verfolgt und im normalen Entwicklungszyklus behoben. Support Ops schult Agenten, Incidents korrekt zu klassifizieren und SEV-1 und SEV-2 sofort an das Bereitschaftsteam der Technik zu eskalieren.
?

Wie sollte das Support- und Kommunikationsteam die kundenorientierte Incident-Kommunikation handhaben?

Kundenorientierte Incident-Kommunikation erfordert Schnelligkeit, Ehrlichkeit und eine angemessene technische Tiefe für jede Zielgruppe. Zeitplan: Innerhalb von 15 Minuten nach Erkennung des Incidents eine öffentliche Statusseite aktualisieren, die das Problem bestätigt (auch wenn die Untersuchung gerade erst beginnt — "Wir sind uns eines Problems bewusst, das [Funktion X] betrifft, und untersuchen es"). Alle 30 Minuten während aktiver Incidents die Statusseite mit dem Fortschritt der Untersuchung aktualisieren. Nach der Behebung eine Abschlussaktualisierung veröffentlichen, die Folgendes enthält: was passiert ist (kurz), wann es begann und endete und was zur Behebung getan wurde. Innerhalb von 72 Stunden eine Zusammenfassung der Post-Incident-Überprüfung für SEV-1- und SEV-2-Incidents veröffentlichen, die die Grundursache, den Zeitplan und zukünftige Präventionsmaßnahmen abdeckt. Support-Teams, die während Incidents eingehende Ticketvolumen bearbeiten, sollten Makro-Antworten verwenden, die auf die Statusseite verlinken, um zu verhindern, dass Agenten Untersuchungsaufwände über einzelne Tickets hinweg duplizieren.
?

Wie sollte Product Ops eine effektive Post-Incident-Überprüfung (blameless postmortem) erleichtern?

Ein blameless postmortem konzentriert sich auf System- und Prozessfehler, nicht auf individuelle Schuldzuweisungen — das Ziel ist Lernen und Prävention, nicht die Zuweisung von Verantwortlichkeiten. Effektive Postmortems umfassen: einen detaillierten Zeitplan des Incidents von der ersten Erkennung bis zur Behebung, rekonstruiert aus Logs, Monitoring-Alerts und Slack-Nachrichten; eine Ursachenanalyse unter Verwendung der "5 Whys"-Technik (wiederholtes Fragen nach dem "Warum?", um die wahre systemische Ursache statt der unmittelbaren Ursache zu finden); die Identifizierung von beitragenden Faktoren über die Grundursache hinaus; und konkrete Maßnahmen zur Verhinderung eines erneuten Auftretens, jeweils mit einem Verantwortlichen und einem Fälligkeitsdatum. Product Ops moderiert das Postmortem-Meeting (typischerweise 60–90 Minuten, innerhalb von 5 Werktagen nach der Behebung), pflegt die Postmortem-Datenbank und verfolgt die Erledigung der Maßnahmen bis zum Abschluss, wobei vierteljährlich über die Abschlussquoten von Postmortem zu Behebung berichtet wird.

Wissens-Challenge

Incident Management gemeistert? Versuchen Sie nun, das verwandte 5-Buchstaben-Wort zu erraten!

Tippen oder Tastatur benutzen