먹통 사태 왜 그렇게 길어졌나, 카카오가 말한 세 가지 이유

이확영 원인조사 소위원장이 꼽은 문제점
①데이터센터 간 이중화 ②관리도구 이중화 ③장애 대응 인력 자원 부족
사고 초기 컨트롤타워 부재도 지적
  • 등록 2022-12-07 오후 12:44:51

    수정 2022-12-07 오후 12:52:34



[이데일리 김국배 기자] 지난 10월 15일 오후 3시 19분 발생한 카카오 서비스의 대규모 장애는 완전히 복구되기까지 127시간 33분이 걸렸다. 복구가 이렇게 길어진 이유는 뭘까.

카카오 비상대책위원회 원인조사 소위원장을 맡았던 이확영 그렙 최고경영자(CEO)는 7일 온라인으로 열린 카카오 개발자 콘퍼런스(이프 카카오)에서 “카카오의 서비스와 인프라에 대한 경험을 기반으로 현재 상황을 비교적 빠르게 파악할 수 있었다”며 몇 가지 원인을 꼽았다. 그는 카카오 출신으로 카카오톡 개발을 비롯한 여러 서비스 경험을 갖고 있다. 그만큼 카카오 서비스를 잘 알면서 외부자의 시각에서 이번 사태를 볼 수 있다는 판단 아래 원인조사 소위원장으로 선임됐다.

그가 가장 먼저 언급한 원인은 ‘데이터센터 간 이중화’ 문제다. 이 소위원장은 “데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구됐을텐데 일부 시스템이 판교 데이터센터(SK) 내에만 이중화돼 있어 장애 복구가 늦어졌다”고 지적했다.

예컨대 서비스를 운영하는 많은 시스템에서 사용되는 캐시 서버, 오브젝트 스토리지가 판교 센터에만 설치돼 있어다. 카카오 로그인, 카카오톡의 사진 전송 기능 등의 복구가 늦어지게 된 배경이다. 또 서로 다른 데이터센터에 이중화된 경우라도 하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동돼야 하는데 이조차 판교 데이터센터에만 설치돼 있었다. 그는 “수동으로 전환 작업을 진행했기 때문에 복구가 지연된 것”이라고 했다.

둘째는 서비스의 개발과 관리를 위한 운영 관리 도구의 이중화가 부족했다는 것이다. 그는 “컨테이너 이미지를 저장, 관리하는 시스템이나 일부 모니터링 도구 등을 화재 여파로 사용할 수 업게 돼 복구에 상당한 어려움을 겪었다”고 설명했다.

세 번째로는 한 개 데이터센터 전체 장애에 대응할 인력과 자원이 충분히 않았다는 점이 꼽혔다. 그는 “운영 관리 도구의 복구 인력이 부족해던 것이나 이중화에 필요한 상면 부족은 치명적이었다”며 “평소 이중화나 장애 대응 체계를 갖추고 있었더라도 이번 장애처럼 데이터센터 전체 장애 상황을 가정하면 준비가 부족했다”고 했다. 또 “판교 데이터센터 전체를 대신할만큼 가용 자원이 확보돼 있지 않았기 때문에, 데이터센터의 전원이 들어와 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다”고 했다

이 소위원장은 사고 초기 컨트롤타워의 부재도 지적했다. 그는 “카카오와 공동체, 개별 조직이 동시다발적으로 장애에 대응했는데 전체적인 조율과 협업을 지원할 전사 조직이 세팅돼 있지 않았다”며 “서비스별로 개발자들이 최선을 다했지만 그것만으론 부족했다”고 했다. 이어 “카카오와 같은 대규모 서비스의 장애 사례가 흔치 않은 만큼, 공유되는 정보들이 많은 서비스의 재해 복구 대비에 도움이 되기를 바란고”고 했다

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • '집중'
  • 사실은 인형?
  • 왕 무시~
  • 박결, 손 무슨 일?
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원

ⓒ 이데일리. All rights reserved