용어집

SaaS 인시던트 관리

SaaS 인시던트 관리(SaaS incident management)는 제품 장애, 보안 이벤트 또는 성능 저하가 감지될 때 활성화되는 조정되고 시간에 민감한 대응 프로세스입니다. 이는 고객 영향을 최소화하고 시스템 안정성을 지속적으로 개선하기 위한 감지, 커뮤니케이션, 에스컬레이션, 완화, 해결 및 사후 인시던트 검토를 포함합니다.

?

SaaS 기업은 대응을 조정하기 위해 인시던트 심각도를 어떻게 분류해야 할까요?

인시던트 심각도 분류는 모든 인시던트에서 첫 번째 결정 사항입니다. 이는 누가 호출되고, 얼마나 빨리 호출되며, 어떤 커뮤니케이션 SLA가 적용되는지를 결정합니다. 실용적인 심각도 모델: SEV-1 (치명적): 완전한 제품 중단 또는 데이터 손실 이벤트. 핵심 제품에 접근할 수 있는 사용자가 없거나 데이터 무결성 침해가 확인된 경우. 대응: 즉각적인 전 직원 브릿지 콜, 1시간 이내 CEO 및 이사회 통보, 15분 이내 공개 상태 페이지 업데이트, 30분 이내 고객 통보. SEV-2 (주요): 활성 사용자 기반의 10% 이상에 영향을 미치는 주요 기능 사용 불가 또는 모든 엔터프라이즈 등급 계정에 대해 중요한 기능이 작동하지 않는 경우. 대응: 엔지니어링 리드 및 온콜 로테이션 즉시 참여, 30분 이내 교차 기능 조정 회의, 1시간 이내 고객 통보. SEV-3 (경미): 사용자 10% 미만에 영향을 미치는 고립된 기능 저하 또는 중요하지 않은 기능이 작동하지 않는 경우. 대응: 엔지니어 배정, 표준 근무 시간 에스컬레이션, 공개적으로 보이는 경우 상태 페이지 업데이트, 영향을 받는 기능이 일반적으로 사용되지 않는 한 사전 고객 연락 없음. SEV-4 (낮음): 알려진 해결 방법이 있는 경미한 버그, 광범위한 고객 영향 없음. 대응: 엔지니어링 백로그에 추적 버그로 기록, 에스컬레이션 없음.
?

SaaS 기업은 활성 인시던트 중에 고객과 어떻게 소통해야 할까요?

인시던트 커뮤니케이션의 품질은 인시던트 자체보다 고객 신뢰와 이탈 위험에 훨씬 더 큰 영향을 미칩니다. 원칙: 보고할 내용이 없더라도 일찍 그리고 자주 소통하세요. 침묵은 무능함이나 회피로 해석됩니다. 인시던트 커뮤니케이션을 세 가지 채널로 구성하세요: (1) 공개 상태 페이지 (Statuspage.io가 표준): 인시던트 분류 후 15분 이내에 업데이트됩니다. 초기 업데이트: "[기능 X]에 영향을 미치는 문제를 인지하고 조사 중입니다. 30분마다 업데이트하겠습니다." 이후 30분마다 정확히 세 가지 요소로 업데이트: 여전히 영향을 받는 사항, 팀이 파악한 내용, 다음 업데이트 시간. 해결 업데이트: "이 인시던트는 해결되었습니다. [시간]부로 모든 [기능 X] 기능이 복원되었습니다. 48시간 이내에 전체 사후 분석 보고서를 게시하겠습니다." (2) 영향을 받는 계정에 대한 사전 이메일: SEV-1 및 SEV-2의 경우, 지원 또는 CS 팀은 모든 엔터프라이즈 등급 계정에 직접 이메일을 보내 고객이 문제를 겪기 전에 영향을 알립니다. 고객이 문제를 발견하고 불평하기를 기다리는 것보다 먼저 알리는 것이 훨씬 좋습니다. (3) 활성 인시던트 중 인앱 배너: 제품 UI에 눈에 띄는 배너를 표시하여 문제를 인지하고 있음을 알림으로써, 문제를 겪는 사용자가 즉시 사용자 오류가 아닌 알려진 문제임을 이해하도록 합니다.
?

의미 있는 개선을 도출하기 위해 사후 인시던트 검토는 어떻게 구성되어야 할까요?

사후 인시던트 검토(PIR, 엔지니어링 문화에서는 사후 분석(post-mortem)이라고도 함)는 고통스러운 인시던트를 조직 학습으로 전환하는 구조화된 사후 브리핑입니다. 효과적인 PIR은 비난하지 않는 방식이어야 합니다. 즉, 실수를 저지른 개인을 찾아 비판하는 것이 아니라 시스템적인 프로세스 및 인프라 개선에 초점을 맞춰야 합니다. "5가지 왜" 기법: "왜 이런 일이 발생했는가?"라고 묻고, 각 답변에 대해 다섯 번 "왜"라고 다시 묻습니다. 이 연습은 인간의 실수(엔지니어가 잘못된 구성 변경을 함)로 보였던 것이 실제로는 시스템적 실패(변경 프로세스에 오류를 잡아낼 검토 단계가 없었거나, 모니터링이 제때 경보를 울리지 않았거나, 런북이 온콜 엔지니어를 잘못 지시했음)였음을 거의 항상 밝혀냅니다. PIR 구조: 타임라인 재구성 (관련 팀원들이 검증한 발생 상황에 대한 정확한 분 단위 기록); 영향 정량화 (얼마나 많은 고객이 얼마나 오랫동안 영향을 받았는지, 위험에 처한 예상 ARR은 얼마였는지?); 근본 원인 분석 (어떤 시스템적 조건이 이 인시던트를 가능하게 했는지?); 완료된 즉각적인 완화 조치; 그리고 가장 중요한 — 실행 항목. PIR 실행 항목은 구체적이고, 담당자가 지정되어 있으며, 일정이 정해져야 합니다: "메흐멧은 3월 15일까지 런북에 배포 구성 변경 검토 단계를 추가할 것입니다." Product Ops는 PIR 실행 항목을 매월 추적하고 완료율을 엔지니어링 리더십에 보고합니다.

지식 챌린지

SaaS 인시던트 관리을(를) 마스터하셨나요? 이제 관련된 6글자 단어를 맞춰보세요!

입력하거나 키보드를 사용하세요