차근차근/이것저것

카카오 개발자 컨퍼런스 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항

예쁜꽃이피었으면 2022. 12. 7. 10:55

https://if.kakao.com/2022/session/1

 

#카카오 #개발자컨퍼런스 #키노트 #원인분석 #재발방지 #미래투자

2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항을 공유합니다. 

1. Our Social Mission
- 카카오의 사회적 소명과 유사 사고 재발 방지를 위한 앞으로의 각오와 의지를 담았습니다.
- 발표자 : 비상대책위원회 재발방지대책 공동 소위원장, 남궁훈 (nkay.play)

2. 1015 장애원인 분석
- 카카오 서비스 장애에 대한 원인을 객관적으로 분석했습니다. 
- 발표자 : 비상대책위원회 원인조사 소위원장, 이확영 (Grepp CEO)

3. 달라지는 카카오 1) 재발방지를 위한 기술적 개선
- 복구가 늦어진 주요 원인과 향후 재발방지를 위한 기술적 개선사항들을 공유합니다. 
- 발표자 : 비상대책위원회 재발방지대책소위원회 부위원장, 이채영 (ean.lee)

4. 달라지는 카카오 2) 미래 투자와 혁신 계획
- 강화되는 자체 데이터센터 방재 대책 및 향후 5년간 카카오의 IT 엔지니어링 혁신 방안을 제시합니다. 
- 발표자 : 비상대책위원회 재발방지대책 공동 소위원장, 고우찬 (gilbert.c)

 


https://tv.kakao.com/l/50283911

카카오의 이중화

- 완성되지 못한 다리와 같았음

- 개발 조직의 상위 조직 생성

 

1.원인분석

- 시스템이 이중화되었음에도 왜 장애가 발생하고 복구가 늦어졌나

이중화 , 위기 대응과정 미흡

 

이중화 미흡

1) 데이터 센터간 이중화 미흡

- 일부 시스템이 판교 데이터 센터 내에서만 이중화 되어 있엇음.

- 캐시 서버, 스토리지 서버 판교에만 있었음

- 서버이상 감지 시스템이 판교 데이터 센터에만 있었음

2) 운영관리도구, 모니터링 시스템의 이중화 미흡

3) 장애 복구를 위한 인력 부족

장애 대응을 위한 커뮤니케이션 채널에 혼선 (카카오톡, 카카오워크)

카카오톡, 카카오워크를 사용하지 못했기 때문에 소통 어려움

 

[ 주요원인 ] 

1.데이터 센터 간 이중화 미흡

2.

3.인력과 자원 불충분

 


 

2.  재발방지를 위한 기술적 개선

이중화

- 모니터링 시스템 다중화

- 메인 백본 센터확장(2곳->3곳)

- 별도전용망구성(대용량 데이터 전송)

 

데이터 

- 다중 복제 구조 구성

 

운영관리 도구

- 데이터 센터 간 이중화 완료 및 삼중화 계획

 

플랫폼

- 데이터 센터 단위 삼중화로 전면 장애 대비

- 각 도구의 목적, 영향도 및 중요도 파악 프로세스 도입

->단일 서버 , 이중화x

 

서비스

- 서비스 간 의존성 최소화

- 페일오버 구성 문제점 개선

- 장애 대응 시나리오 재검토

- 서버 구성정보, 배포 설정 이중화

 

서비스간 우선순위 체계화

 

장애 대비 훈련 확대 실시

 

자체 구축 데이터센터 디자인 개선

- 모듈 단위 완전 셧다운

 

 


 

 

3. 미래 투자와 혁신

1) 24년부터 안산 데이터 센터 운영(시공중)

+ 극단적 재난재해 대비

 

 

2) IT엔지니어링 혁신

2-1) 거버넌스 

 

+ 재해복구 위원회 신설

+ 서비스 연속성 확도 전담 조직 신설

 

2-2) BCP / DR(비상 대응 계획)

 

+ 외부 전문가 자문

 

 

2-3) 투자 재원 확대

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형