본문 바로가기

Business Data

[업무지식] 신뢰성 지표 (MTTF, MTTR, MTBF) 및 SLA 이해하기

반응형

안녕하세요 서후아빠입니다. ^_^

이번 세션은 신뢰성 지표에 대해서 업무적으로 필요한 최소한의 개념에 대해서 간단히 정리해 보았습니다.

상시 가동 서비스를 제공하는 기업들은 서비스 신뢰성을 높이기 위해서 장애와 가동 중지 시간에 대한 관리에 많은 노력을 기울입니다. 


MTTF, MTTR, MTBF

구분 내용
MTTF (Mean Time To Failure, 평균 장애 시간) 최대한 낮게 유지
일반적으로 수리 불가능한 시스템에서 사용 (ex : 전구)
MTTR (Mean Time To Repair, 평균 복구 시간) 최대한 낮게 유지 
보전성 지표, 장애 시간 + 테스트 시간
MTBF (Mean Time Between Failure, 평균 장애 간격) 최대한 높게 유지
신뢰성 지표, 일반적으로 수리하며 사용하는 시스템에서 사용
시스템 점검/업그레이드/유지관리 등에 대한 시점의 지표로 사용 가능
예정된 유지 관리로 인한 가중 중지 시간은 고려하지 않음
Availability (가용율) 최대한 높게 유지 (0 < 가용율 < 1)
신뢰도 지표
MTTD (Mean Time To Detect) : 장애 인지 불필요하거나 중요하지 않은 경우 MTTR에 포함
MTTI (Mean Time To Identify): 장애 인지하고 원인 파악, 예비품 구비 등 시간
MTRS (Mean Time to Restore Service) : 장애 복구 후에도 서비스가 완전히 정상 가동되기까지 시간
MTBSI (Mean Time Before System Interruption) : 2개의 연속적인 문제 인식 사이에 걸린 시간

지표 계산 예시 (24h 기준) 

상태 가동 1 장애 1 가동 2 장애 2 가동 3 장애 3
시간(hours) 6 2 6 4 3 3
MTTF = 총가동시간 / 장애건수 = 15 / 3 = 5 시간
MTTR = 총장애시간 / 장애건수 = 9 / 3 = 3 시간
MTBF = MTTF + MTTR = 5 + 3 = 8 시간 
Availability = MTTF / MTBF = 5 / 8 = 0.625 (= 62.50%)

장애 허용 시간 예시

구분 비용 산정 기간 가동 보장 시간 (MTTF) 장애 허용 시간 (MTTD + MTTR)
가용율 99.95% 월간 (30일 기준) 29일 23시간 38분 24초 21분 36초
연간 (365일 기준) 364일 19시간 37분 12초 4시간 22분 48초
가용율 99.99% 월간 (30일 기준) 약 29일 23시간 55분 40.8초 약 4분 19.2초
연간 (365일 기준) 약 364일 23시간 7분 26.4초 약 52분 33.6초

MTTF, MTTR, MTBF 활용

  - 장애 발생 시 영향도 및 원인 분석

  - SLA 기반 서비스 계약 : 장애 허용 시간을 초과할 경우 SLA 계약에 따라 비용의 일정 비율을 차감 혹은 Credit 제공

  - 목표 가용율 만족 제품 선정

  - 제품 설계 및 개발 기준

  - 고가용성(High Availability) 및 장애허용(Fault Tolerant) 점검

SLA (Service-Level Agreement, 서비스 수준 협약)

고객이 공급업체로부터 기대하는 서비스 수준을 기술한 문서

해당 서비스의 성과를 측정하는 기준과 합의된 서비스 수준을 달성하지 못할 경우 구제책이나 불이익 등 명시한 계약서 

  - SLO (Service-level objectives, 서비스 레벨 목표) : 서비스의 가용성을 설정한 목표

  - SLI (Service-level indicators, 서비스 레벨 지표) : 서비스의 가용성을 파악하기 위한 지표와 측정값

  - 포함될 목록 : 서비스 가용성(=가동 보장 시간), 기술 품질, 오류율, 보안 등

SLO, SLI는 SRE팀에서 가장 정확하게 알고 있기 때문에 SRE팀에서 검토하여 결정된 것으로 작성하는 것이 일반적입니다. 
SRE (Site Reliability Engineering, 사이트 안정성 엔지니어링) : 서비스 범위를 설정, 주요 지표의 SLI 유지 및 SLO 준수 확인

SLA 유형

구분 내용
고객 기반 SLA 고객이 사용하는 모든 서비스에 대한 계약
서비스 기반 SLA 서비스 공급자가 제공하는 서비스에 대한 계약
멀티 레벨 SLA 고객을 다양한 수준(기업 레벨, 고객 레벨, 서비스 레벨 등)으로 나누어 계약

SLM (Service Level Management, 서비스 수준 관리)

고객에게 제공되는 서비스 레벨에 대한 모든 프로세스와 운영 계약이 적절한지 확인하는 것

서비스 레벨에 대한 모니터링 및 보고, SLO 설정 및 조정, SLI 결정, SLA 준수 확인, 고객 리뷰 유지 등 포함

SLM Work Flow

구분 내용
SOW 서비스 영역 정의
SLA 서비스 수준 정의, 측정 기준 설정
SLM SLA 성과 평가
SOW (Statement Of Work, 업무 정의서) : 서비스를 제공하기 위한 활동, 산출물, 작업 시간 등을 포함하는 기술서
반응형