mobile background

자료실

데이터 장기 보존에 따르는 과제와 베스트 프랙티스


Quick Overview 

데이터 장기 보존은 규정 준수를 위해 필요합니다. 데이터를 장기간 저장할 때는 기간과 데이터양을 모두 고려하고, 비용과 액세스 가능성 사이의 균형을 유지하는 것도 중요합니다. 하지만 데이터 장기 보존에 따르는 위험도 있습니다. 어떤 위험이 있는지 살펴보고 이런 문제를 해결하기 위한 베스트 프랙티스를 알아봅니다. 



데이터 백업과 장기 보존을 고려하는 IT 전문가는 보관할 데이터의 양뿐만 아니라 기간도 고려해야 합니다. 데이터 장기 보존 시 핵심은 데이터를 오랜 시간 보관하는 비용과 이 데이터에 다시 액세스할 가능성 사이에서 균형점을 찾는 것입니다. 

 

대부분 기업에서 장기간 데이터를 보존하는 가장 큰 이유는 규정 준수 때문입니다. 기업의 인프라는 몇 년 동안 데이터를 보존하도록 설계되는데, 시스템 관리자라면 데이터 장기 보존 시 직면하게 되는 여러 난관을 헤쳐 나가는 방법을 익혀야 합니다. 

 


데이터 장기 보존, 왜 중요할까요?

데이터를 장기간 보존하는 가장 일반적인 이유는 의무이기 때문입니다. 일정 연 수 동안 데이터를 보존해야 한다는 규정이 있습니다. 일반적으로 이런 규정은 재무적인 측면에 영향을 미칩니다. 세무 및 금융 감독 기관과 산업 단체는 거버넌스 수단으로 데이터 장기 보존을 강제합니다. 이런 규정을 준수해야 할 의무가 있는 기업이라면 언젠가 감사를 받게 될 때를 대비해 원본 데이터를 보존하는 편이 낫습니다. 


법률적인 이유도 이와 밀접하게 관련됩니다. 예를 들어, 회사가 스크루 드라이버든 고층 건물이든 상품을 제조하고, 고객은 그 상품에 대한 보증을 요구할 권리가 있다고 가정해 봅시다. 몇 년이 지난 뒤에도 그 상품이 제대로 제조되었음을 입증할 수 있으려면 모든 관련 설계와 계획, 승인, 문서를 보관하는 것이 최선입니다. 자동차도 마찬가지입니다. 엔진, 전기, 내장, 전장 등 수천 개의 부품 대부분이 각기 다른 공급업체로부터 조달되므로 자동차 제조사는 고객에게 오랜 기간 안심할 수 있는 보증을 제공하기 위해 공급업체에 구성품의 품질에 대한 보증을 원할 것입니다. 


자동차 부품이 제조일로부터 특정 연 수 이내에 결함이 있는 것으로 증명되면 리콜과 관련한 조사를 받게 됩니다. 이런 경우 제조 당시 적용한 표준에 대한 레코드(날짜, 로트 번호, 규격)를 검색하게 됩니다. 데이터 장기 보존은 리콜 비용을 누가 지불할 것인지 결정할 때 내게 유리하게 작용할 수 있습니다. 여러분의 회사가 문제의 부품을 공급했는데, 특정 표준에 맞춰 부품을 제조하고 테스트했음을 입증하는 데이터를 보존하고 있지 않다면 리콜 비용을 여러분이 부담하게 될 수 있습니다. 


데이터 장기 보존의 기반 기술은 백업 기술과 비슷합니다. 단지 저장의 이유가 다를 뿐입니다. 전자는 정상적인 비즈니스 운영 중에 법적 책임을 줄이기 위한 것이고, 후자는 중단 또는 재해 발생 시 복구하기 위한 것입니다. 

 


데이터 장기 보존과 관련한 일반적인 과제 

열화 

물리적 객체나 디지털 객체나 스토리지에 저장된 모든 객체는 시간과 자연 현상에 의해 열화됩니다. 열화는 장기간 데이터를 저장할 때 가장 큰 장애물입니다. 종이는 수 세기 동안 문서 보존 매체였습니다. 종이는 시간이 지나면 썩지만 디지털 기록의 1과 0은 썩지 않습니다. 그러나 이 기록이 저장되는 매체의 특성으로 인해 디지털 기록 역시 종이 기록처럼 습기와 열에 취약합니다. 

 

테이프는 온도와 습도의 변화에 민감합니다. 테이프에 데이터를 저장하고 10년이 지나면 테이프가 들러붙어 데이터를 읽을 수 없는 상태가 될 수도 있습니다. 방법은 일 년에 한 번씩 테이프를 돌려주는 것입니다. 테이프를 읽을 필요도 없고, 그냥 앞뒤로 풀었다가 되감아 주기만 하면 들러붙음을 방지할 수 있습니다. 

 

광학 디스크는 데이터 장기 보존을 위한 대안으로 부상했지만, 햇빛과 방사선에 취약하기 때문에 디스크를 올바르게 보관하지 않을 경우 비트 부패(bit rot)가 발생할 수 있습니다. 그래서 도입된 것이 체크섬(checksum)입니다. 체크섬은 데이터 조각에 포함된 문자를 기반으로 한 숫자입니다. 드라이브는 디스크에 데이터를 쓸 때 데이터와 함께 체크섬을 저장하고, 나중에 데이터를 읽을 때 체크섬을 확인합니다. 체크섬에 변경이 발생했다면 데이터가 변경되었다는 의미이므로 그 데이터는 신뢰할 수 없습니다. 

 

클라우드  컴퓨팅과 스토리지가 등장했으니 이제 취약한 매체로 인한 위험에서 벗어났다고 생각할 수 있지만, 반드시 그렇지는 않습니다. 클라우드 서비스 제공업체는 여러 방법을 사용해 매체 열화 속도를 늦출 수 있지만 이들도 결국은 여러분과 똑같은 매체, 즉 테이프, 광학 드라이브, 하드 드라이브, SSD를 사용합니다. 다만 클라우드 업체 대부분은 코로케이션과 지리적인 중복 구성을 통해 위험을 낮춥니다. 항상 그렇듯이 비용을 낮추는 데는 비용이 듭니다. 

 

열화는 어디에서나 일어나며 업계에 따라 다양한 수준의 영향을 미칩니다. 예를 들어 의료 분야라면 인체 스캔이나 진단 보고서 데이터의 열화를 용인할 수 없을 것입니다. 금융 분야 역시 데이터 열화로 인해 잔고 금액이 바뀌는 상황은 용납할 수 없습니다. 이런 업계에서는 체크섬 전후를 비교해 위험을 낮출 수 있습니다. 

 

파일 형식의 도태 

어떤 데이터를 매우 오랜 시간 저장할 계획이라면 지금은 보편적이지만 30년 후에는 그렇지 않을 수도 있는 형식으로 저장하시겠습니까? 아니면 형식의 영향을 줄이는 방식으로 저장할 방법이 있을까요? 

 

데이터를 읽는 방법에 대한 지침을 데이터와 함께 저장하는 자체 설명 형식을 통해 형식 도태 위험을 방지하는 방법이 있습니다. 데이터 파일이 스스로를 설명할 수 있다는 말이 이상하게 들릴 수 있지만 이렇게 하면 형식 도태 위험을 낮출 수 있습니다. 예를 들어 PDF(이식 가능한 문서 형식), XML(확장 가능한 마크업 언어)이 도태 위험이 낮은 형식입니다. 


새 형식으로 마이그레이션한 이후의 예상치 못한 결과 

형식 도태 위험을 피하기 위해 새로운 형식으로 마이그레이션한다고 가정해 보겠습니다. 이 새로운 형식의 이점을 사라지게 할 일이 앞으로 일어날까요? 

 

최선의 답은 시간이 흐르면서 여러분이 받아들일 수 있는 변화의 정도에 따라 다릅니다. 향후 10년 동안 판매 데이터베이스의 모든 변경 사항을 저장해야 하나요? 아니면 각 사용자 계정에 대해 특정 시점에만 저장하는 것으로 충분한가요? 보고서 생성에 사용한 스프레드시트 파일을 저장해야 하나요, 아니면 보고서 PDF만 저장해도 되나요? 금융 정보를 얼마나 세부적인 부분까지 장기 데이터 스토리지에 저장할지에 대해서도 논의가 필요합니다. 


 

데이터 장기 보존과 관련해 쉽게 발생하는 실수

가장 일반적인 실수는 데이터가 어떻게 저장되는지 이해하지 못하는 것입니다. 

 

예를 들어, 프로덕션 환경에서 1년 전에 만든 데이터베이스가 있다고 생각해 봅시다. 그 이후 매일 데이터베이스에서는 트랜잭션이 추가되고 삭제되고 편집되었습니다. 따라서 이 데이터베이스는 매일 달라집니다. 그렇다면 데이터베이스의 365개 버전을 장기 스토리지에 보존해야 할까요? 물론 아닙니다. 데이터베이스는 지난 1년 동안 실행되었으므로 오늘 프로덕션 환경에서 저장한 데이터베이스 버전 하나에는 이미 365일의 기록이 포함돼 있습니다. 저장할 때마다 그 버전에는 트랜잭션의 전체 기록이 포함됩니다. 

 

위와 같은 오해가 발생하는 원인은 ‘장기 저장’이라는 말을 파일의 모든 버전을 장기간 보존해야 한다는 의미로 착각한다는 데 있습니다. 현재 프로덕션 환경에서 데이터가 어떻게 저장되는지, 얼마큼의 기록이 이미 있는지를 파악해야 합니다. 데이터가 어떤 구조로 어떻게 저장되는지 이해하면 쓸모없게 된 버전을 저장할 필요가 없음을 알게 됩니다. 

 


데이터 장기 보존 설계 시, 이것부터 살펴보세요

데이터를 장기 보존하기 위한 시스템과 정책을 설계할 때 가장 먼저 고려해야 할 점은 어디에 데이터를 장기적으로 저장할 것인지입니다. 이를 결정하기 위해서는 먼저 다음과 같은 몇 가지 질문에 답해야 합니다. 


  • 무엇을 보관해야 하나요? 데이터 장기 저장에 대해 의사 결정을 내릴 때 고려해야 할 규정, 산업 표준 또는 재무적 요구 사항은 무엇인가요? 

  • 얼마나 자세하게 보관해야 하나요? 위에서도 언급했듯이 어느 정도까지 세부적으로, 얼마나 오래 보관해야 하나요? 

  • 데이터에 발생할 수 있는 비트 부패와 같은 변화로 인한 위험을 얼마나 감수할 수 있나요? 

  • 사용자가 얼마나 자주 데이터에 액세스해야 하나요? 액세스 빈도가 높다면 비용이 더 들더라도 빠르고 쉽게 액세스할 수 있는 곳에 저장하는 것이 좋습니다. 빈도가 낮다면 훨씬 더 저렴하게 저장할 수 있지만, 대신 데이터를 불러올 때 더 큰 비용을 지불해야 합니다. 

 

무엇을 어디에 저장할지 확인했다면 이제 저장 방법을 고려할 차례입니다.

  • 데이터 사용례는 무엇인가요? 5년, 7년, 10년, 어쩌면 20년 후에 이 데이터가 필요할 수 있는 예상 가능한 상황은 무엇인가요? 

  • 어떤 형식으로 저장할 계획인가요? 새로운 형식으로 변환할 수 있나요? 법률 문서와 같이 원본 형식만 허용되는 경우도 있으므로 정보가 변경되는 일이 없어야 합니다. 변환할 경우 정보가 변경될 수 있으므로 원본 데이터를 저장해야 할 가능성이 높습니다. 

  • 데이터 액세스를 어떤 식으로 구성하고, 필요한 데이터를 어떻게 찾아서 불러올 수 있나요? 저장 방법에 대한 고민 없이 데이터를 장기 스토리지에 쌓아 두기만 하면 데이터를 찾기가 어려워집니다. 시간이 촉박한 상황에서 문제가 됩니다. 

  • 회사가 인수될 경우 데이터 소유권은 누구에게 있나요? 인수 기업과 피인수 기업이 서로 다른 국가 또는 무역권에 위치한 경우 특히 중요한 질문입니다.  

 

그 외에 데이터 장기 보존을 위한 베스트 프랙티스에는 다음과 같은 항목이 포함됩니다.

  • 자동화 : 무엇보다, 데이터 장기 보존 절차를 자동화하십시오. 기억에 의존해서 뭔가를 실행해야 하는 경우 잊어버리거나 미루게 될 가능성이 있습니다. 빨리 자동화할수록 가치가 큰 작업에 더 많은 시간을 투자할 수 있습니다. 범위를 넓혀 스크립트와 정책까지 자동화하면 더 편하게 데이터를 장기간 저장할 수 있습니다. 

  • 암호화 : 읽을 수 있는 콘텐츠를 키가 있어야 읽을 수 있는 암호화된 콘텐츠로 변환하면 공격자가 콘텐츠에 접근하는 경우에도 데이터를 보호할 수 있습니다. 백업 보호를 위한 베스트 프랙티스로 흔히 언급되는 암호화는 데이터 장기 보존에도 유용합니다. 

  • 중복 제거 : 장기 스토리지를 위한 공간이 부족해지는 경우를 방지하려면 어떻게 해야 할까요? 물론 어떤 방법을 써도 공간은 유한하지만, 데이터 중복 제거를 통해 기존 스토리지에서 최대한 많은 용량을 확보할 수 있습니다. 게다가 중복 데이터를 토큰으로 대체하는 중복 제거 기법은 장기 스토리지로 데이터를 전송할 때 시간과 네트워크 리소스 사용량을 줄여줍니다. 소스 측 중복 제거를 사용하면 네트워크를 통해 스토리지 타깃으로 전송되는 데이터의 양을 최대 90%까지 줄일 수 있습니다. 


결론

장기간 데이터 저장이 의무 사항인 기업은 기술 못지않게 프로세스도 중요하게 감안하는 의사 결정에 직면하게 됩니다. 재무적, 법적 요구사항과 향후 몇 년, 때에 따라 몇십 년에 이르는 데이터 장기 보존을 체계화하고 액세스하고 구조화할 방법 사이에서 균형을 맞춰야 합니다.  


장기간 저장에서 흔히 직면하는 장애물에는 데이터 열화, 파일 형식의 도태, 그리고 새 형식으로 마이그레이션한 이후 발생하는 예기치 못한 결과 등이 있습니다. 기업은 데이터를 어디에, 어떤 방법으로 저장할지와 같은 기초적이고 전체적인 수준의 질문에 직면합니다. 이런 질문에 대한 답을 찾는 가장 효과적인 방법은 비즈니스 관행 및 위험 감수 성향과 관련된 세부적인 수준의 질문 맥락에서 찾을 수 있습니다. 

 

장기 데이터 관리에 어려움을 겪고 계시거나 관련 솔루션에 대해 궁금한 점이 있으시면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다. 😀


 




퀘스트소프트웨어코리아(주)

서울특별시 강남구 테헤란로 445 본솔빌딩10F
전화 번호 02-3420-9000 | 팩스 번호 02-569-3600

전자 메일 KoreaMarketing@quest.com 


Copyright © Quest. All Rights Reserved.

Hosting by I'MWEB


퀘스트소프트웨어코리아(주) 서울특별시 강남구 테헤란로 445 본솔빌딩10F
전화 번호 02-3420-9000 | 팩스 번호 02-569-3600 | 전자 메일 KoreaMarketing@quest.com


Copyright © Quest. All Rights Reserved.

Hosting by I'MWEB