서버가 터지면 심장도 같이 터진다. 새벽 3시에 알람이 울리고, 슬랙에 빨간 경고가 도배되고, 고객 문의가 폭주한다. 20년 가까이 개발을 해왔지만 이 순간만큼은 여전히 심장이 쫄깃해진다.
Cloudflare가 또 장애를 냈다. 그리고 또 상세한 post-mortem을 공개했다. 무슨 일이 있었는지, 왜 그랬는지, 앞으로 어떻게 방지할지를 낱낱이 적어서.
투명함의 용기
장애 보고서를 공개한다는 건 용기가 필요한 일이다. “우리가 실수했습니다”라고 세상에 알리는 거니까. 한국 기업 문화에서는 상상하기 어려운 일이다. 보통은 조용히 묻고, 책임자를 찾아 질책하고, 다음에 또 같은 실수를 반복한다.
하지만 제대로 된 post-mortem은 비난이 아니라 학습을 위한 것이다. “누가 잘못했나”가 아니라 “시스템이 왜 실패했나”를 묻는 것.
내 첫 번째 장애 경험
아직도 기억난다. 주니어 시절 DB 마이그레이션 스크립트에 WHERE 절을 빼먹었던 그날. 운영 DB의 사용자 테이블이 통째로 날아갔다. 손이 떨리고, 머리가 하얘지고, 시간이 멈춘 것 같았다.
다행히 당시 팀장님이 좋은 분이었다. 먼저 복구에 집중하고, 그 다음에 왜 그랬는지를 차분히 돌아봤다. 덕분에 나는 그 실수에서 배울 수 있었고, 비슷한 사고를 여러 번 방지할 수 있었다.
성장의 재료
장애 없는 시스템은 없다. 중요한 건 장애를 얼마나 빨리 감지하고, 얼마나 빨리 복구하고, 얼마나 깊이 학습하느냐다. 그래서 post-mortem 문화가 중요하다.
40대가 된 지금, 후배들에게 가장 강조하는 것도 이거다. 실수를 숨기지 마라. 실수에서 배워라. 그리고 그 배움을 공유하라.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.