본문 바로가기 주메뉴 바로가기

최신IT소식

시스템 고가용성과 재해 복구의 차이점

관리자 2018-11-09 조회수 30

Quest_thumb_20181107.jpg

 

시스템 고가용성과재해 복구의 차이점

고객에게서 쉐어플렉스(SharePlex)를 사용해서 고가용성을 달성할 수 있습니까?” 또는 “쉐어플렉스 데이터베이스 타겟을 재해 복구에 사용할 수 있습니까?
와 같은 질문을 자주 받습니다.

두 질문에 짧게 답하자면 
!”
입니다. 

오늘은 쉐어플렉스를 사용해 고가용성과 재해 복구를 효과적으로 수행하는 방법을 세부적으로 살펴보겠습니다. 

용어 정의

1. 고가용성
위키피디아는 
고가용성”을 “서버와 네트워크, 프로그램 등의 정보 시스템이 (일반적인 기간보다상당히 오랜 기간 동안 지속적으로 정상 운영이 가능한 성질으로 정의합니다.

우선 주목해야 할 문구는 
특성의 대상이 개별 데이터베이스, 웹 서버 또는 디스크가 아니라 시스템
이라는 것입니다. 회사가 하는 일에 고객 주문을 받는 과정이 포함된다면 데이터베이스가 가동 중이라도 주문을 표시하는 웹 서버가 가동 중이 아닌 경우 사용자에게 여러분의 시스템은 “가용한” 상태가 아닙니다. 또 한가지 주목할 부분은 “일반적인 기간보다 상당히 오랜 기간”입니다. 여기서는 “일반적인 기간”의 정확한 의미부터 정의해야 합니다.

“일반적”이라는 말은 애플리케이션과 사용 사례에 따라 매우 가변적니다. 예를 들어 회계를 지원하는 시스템을 운용 중이고 모든 회계사가 주 5일 오전 8시부터 오후 5시까지만 근무한다면 “일반적인” 기간은 월-금 오전 8시~오후 5시로 정의할 수 있습니다. 반면 응급 구조대를 지원하는 시스템을 운용한다면 “일반적인” 기간은 주 7일, 하루 24시간이 됩니다.

위키피디아 정의에는 
정상 운영이라는 말도 나옵니다. 이 말은 각 조직에 맞게 정의
해야 합니다. 조직에 문서화된 서비스 수준 계약(Service Level Agreements, SLA)이 있습니까? 뒤에서 보겠지만 이 계약은 고가용성 또는 재해 복구를 측정하기 위한 중요한 요소입니다.

물론 서비스 수준 계약은 시스템을 설계하고 엔지니어링하는 방법과 고가용성의 비용에 영향을 미칩니다.

2. 재해 복구
위키피디아는 “재해 복구”를 
자연재해나 인위적인 재해가 일어난 후 특정 단체에 중요한 기술 인프라를 복구하거나 지속할 목적으로 준비하는 데 대한 과정, 정책, 절차로 정의합니다. 또한 재해 복구는 핵심 비즈니스 기능을 지원하는 IT 또는 기술 시스템에 초점을 둔다고 되어 있습니다.

이 말을 분석하기 위해 일단 “재해”에 대한 위키피디아 정의를 보면, 
영향을 받는 지역 또는 사회가 자체적인 자원을 사용하여 대처 가능한 수준을 넘어서는 광범위한 인적, 물적, 경제적 또는 환경적 손실과 영향을 동반하여 비교적 짧은 시간 내에 발생하는 지역 또는 사회 기능의 심각한 파괴
입니다.

주목할 부분을 하나씩 살펴봅시다. 재해는 “심각”해야 합니다. 데이터 센터의 화재는 “심각”한 화재가 될 수 있습니다. 그러나 방 전체가 연기로 가득 차고 스프링클러 시스템이 가동된 이유가 전자레인지 안의 팝콘인 경우는 어떨까요? 또는 백업 발전기와 일주일 분량의 연료가 준비된 상황에서 정전이 발생한다면?

그 다음 주목할 문구는 재해는 “광범위”해야 하며 “영향을 받는 지역이 자체 자원을 사용해서 대처할 수 있는 수준을 넘어서야”한다는 부분입니다. 마찬가지로, 
서버 하나가 손실되는 경우 “재해”가 아닐 수도 있지만 대비책을 마련해두지 않았다면 재해로 이어질 수 있습니다. 

 

또한 스콧 애덤스의 말을 조금 바꾸자면, 운석으로 인해 데이터 센터가 파괴된다면 거의 확실히 재해일 것입니다.

고가용성과 재해 복구의 차이 
각 부분을 정의했으니 둘의 차이점과 유사점을 살펴봅시다.

유사점

고가용성과 재해 복구 모두
 “비즈니스 연속성”의 하위 집합으로 볼 수 있습니다. 또는 “불상사”가 일어난 경우 비즈니스 지속을 보장하는 방법이라고 할 수도 있습니다.

성공적인 고가용성과 재해 복구 프로그램의 핵심 요소는 
중복성, 즉 단일 실패 지점의 제거입니다. 시스템의 데이터베이스 구성 요소에서 고가용성과 재해 복구에는 보통 데이터베이스 복사본 생성이 포함되지만 그 이유는 각기 다릅니다(아래 차이점 참조).

고가용성과 재해 복구의 또 다른 핵심 요소는 위험 평가입니다. 
위험 평가는 비용 계산 및 비용 비교로 이어집니다. 한 국가 내에서도 지역에 따라 지진 위험이 매우 높을 수도, 위험이 거의 존재하지 않을 수도 있습니다. 단일 서버 장애에서 복구하기 위한 비용은 화재 후 데이터 센터를 재건설하는 비용보다 훨씬 적습니다. 비용 대 위험 평가를 통해 “과도한 예산”을 책정하지 않고도 적절한 고가용성 및 재해 복구 프로그램을 구성할 수 있습니다.

고가용성과 재해 복구 스템에는 모두 합의된 목표와 척도가 필요합니다. 
고가용성 시스템의 가용성재해 복구의 복구 시점 및 복구 시간 목표가 여기 해당됩니다. 다음은 이러한 척도 몇 가지를 정의해 보겠습니다.

차이점
단순히 정의만 보면 
고가용성은 시스템과 시스템의 설계 방법을 다루고, 재해 복구의 핵심은 정책과 툴, 절차입니다. 

퀘스트는 
고가용성용 시스템을 구축할 때 단일 장애 지점을 제거하고 장애 조치(failover) 또는 복구 절차를 자동화함으로써 전체적인 시스템 장애를 방지합니다. 그러나 재해 복구 시스템을 구축할 때의 전제는 주 시스템이 실패했고 해당 시스템의 복구에 시간이 소요된다는 것입니다.

이는 목표와 척도로 다시 연결됩니다. 고가용성 시스템의 경우 일반적으로 “
가용성”으로 정의되며 “예상되는” 시스템 가용 시간의 백분율로 표현 됩니다. 예를 들어 주 5일, 8AM ~ 5PM 동안 가용성을 유지해야 하는 시스템인 경우 하루 9시간, 주 45시간입니다. 이 시스템에서 99.99%의 가용성은 주당 0.0045시간, 또는 약 16초의 “다운타임”을 허용합니다. 7 x 24 시스템이라면 주당 6초가 조금 넘는 정도를 허용합니다.

반면 재해 복구 시스템에는 일반적으로 “복구 시간”과 “복구 시점” 척도가 있습니다. 예를 들어 데이터 센터 화재가 발생하는 경우 1시간 이내에 주문 입력 시스템을 복구하고(복구 시간 목표), 5분 분량의 거래 손실만 허용하고자 할 수 있습니다(복구 시점 목표).

시스템 설계
용어를 정의하고 목표와 척도를 설정하면 이러한 목표를 충족하는 시스템을 설계할 수 있습니다.

고가용성 시스템
고가용성 시스템의 경우 가용성 목표를 충족하는 
장애 조치” 또는 시스템 간 전환을 설계해야 합니다. 99.99%를 달성하고자 한다면 8-5 시스템이라 해도 모든 단일 실패 지점을 제거하고 장애조치를 자동화해야 합니다.

재해 복구 시스템
재해 복구의 경우 시스템이 

  • 등록된 댓글이 없습니다.