Quick Overview 현대적인 데이터 아키텍처를 구축할 때는 레거시 기술, 데이터 품질 문제, 보안과 규정 준수, 회사 문화 등의 다양한 문제가 따릅니다. 또한 과거에 구현했던 데이터 레이크하우스에 대해 고려하지 않거나 한 가지로 모든 문제를 해결할 수 있다는 생각에 빠져버리기도 합니다. 현대적 데이터 아키텍처를 선택할 때 고려해야 할 사항을 확인하고 효과적인 구현 방법을 알아봅니다. |
모든 기업은 각자에 가장 타당한 데이터 아키텍처가 무엇인지 평가해야 합니다. 현대적 데이터 아키텍처의 적합성은 기업의 목표와 데이터 환경, 기술적 역량, 문화적 준비 상태에 따라 달라집니다.
1부에서는 전통적인 데이터 아키텍처가 현대적인 데이터 아키텍처로 변하게 된 과정을 살펴보고 현대적 데이터 아키텍처의 주요 특징을 알아보았습니다. 여기서는 최신 데이터 아키텍처 구축에 따르는 과제와 기업이 저지르는 흔한 실수, 최신 데이터 아키텍처 선책 시 고려해야 할 사항 등에 대해 알아봅니다.
현대적 데이터 아키텍처 구축의 과제
1) 레거시 기술
현재 사용 중인 기술 또는 그 기술의 기반이 되는 아키텍처가 최신 기술과 맞지 않는 기업에서는레거시 기술이 현대적 데이터 아키텍처 구축을 어렵게 만듭니다. 이런 시스템은 일반적으로 문서화가 제대로 되지 않은 상태고 이해도가 낮아 벗어나는 데 많은 시간과 비용이 소요됩니다. 여전히 많은 레거시 기술이 "망가지지 않았다면 고치지 말라"라는 원칙을 고수합니다.
소프트웨어 엔지니어 대부분은 오래된 레거시 시스템과 프로그래밍 언어에는 아무런 매력을 느끼지 못합니다. 기술 환경이 그동안 워낙 많이 바뀐 만큼 새로운 아키텍처로의 전환에는 위험이 따를 수 있습니다.
2) 또 다른 데이터 품질 문제의 늪에 대한 우려
데이터 품질 문제는 과거와 동일하거나 더 나쁜 데이터 사일로를 유발합니다. 새 아키텍처로 전환한다고 해서 데이터 품질 문제가 사라지는 것은 아닙니다.
현대화에 착수하기 전에 현재의 데이터를 면밀히 살펴보십시오. 데이터를 정제해야 하나요? 그 데이터로 무엇을 할 수 있나요? 지금 상태 그대로 현대적 데이터 아키텍처로 옮겨도 될 정도로 충분한 거버넌스가 구축돼 있나요?
확장성 또는 미래의 요구사항 등에 대한 고민 없이 지금 당장의 문제만 바라보고 현대적 데이터 아키텍처를 추진할 경우 또 다른 늪에 빠질 수 있습니다.
3) 생성형 AI를 지원하지 않는 데이터 인프라
경영진은 데이터에 생성형 AI 계층을 더할 것을 IT 부서에 요청하는 경우가 많습니다. 그러나 기반이 되는 데이터 인프라를 신뢰할 수 없다면 생성형 AI를 통해 얻은 인사이트 역시 신뢰할 수 없습니다. 시간을 투자해 데이터 인프라를 강화하지 않는 기업은 "쓰레기를 넣으면 쓰레기가 나온다"라는 격언을 현실로 마주하게 됩니다. AI를 성공적으로 활용하려면 엄격한 평가를 통해 현재의 데이터 파이프라인이 AI를 지원할 수 있는지 파악해야 합니다.
4) 보안과 규정 준수
현재 거버넌스가 제대로 되고 있지 않다면 많은 부분을 옮기는 것은 적절치 않습니다. 보안 대책 없는 아키텍처 전환은 위험합니다. 데이터 손실 또는 침해 위험이 발생할 뿐 아니라 내부 동의를 얻기 위한 동력이 빠르게 사라질 수도 있습니다. 새로운 아키텍처의 좋은 점에 대해 큰소리를 쳤는데, 이전의 문제가 그대로 옮겨와 전체 전략이 위태로워지는 상황을 상상해 보십시오.
5) 인재와 기술
데이터 아키텍처를 현대화하기 위한 인력을 구할 때는 2가지 문제에 직면할 수 있습니다. 하나는 아키텍처를 구현하고 해당 아키텍처의 기반 기술을 활용하기 위한 인재를 어디서 찾아야 하는지는 이미 알고 있지만, 이런 인력은 가만히 앉아 전화가 오기를 기다리지는 않는다는 것입니다. 이들을 찾는 회사는 많고, 그만큼 몸값이 비쌉니다.
다른 한편으로, 자신의 가치를 입증하고 비즈니스에 대한 많은 부족 지식(tribal knowledge)을 보유한 엔지니어와 데이터베이스 관리자는 이미 기업에 많을 수 있습니다. 최신 기술에 능통하지 않은 기존 직원에게 프로젝트를 맡길 수 있을까요? '목욕물 버리다 아이까지 버리지 말라'는 격언대로 하려면 어떻게 해야 할까요? 아키텍처에 대한 이들의 지식을 어떻게 발전시킬 수 있을까요? 이들 스스로 발전을 원하나요? 아니면 현 상태에 대한 변화를 두려워하나요?
6) 이해와 동의
전체 과정에서 여러분이 무엇을 하고 있는지 알리고, 왜 하는지 사람들이 이해하도록 해서 전체 프로세스에 걸쳐 동의를 구해야 합니다. 그렇게 해야 프로젝트를 위한 예산과 장애물을 넘어야 할 때 다른 사람들의 도움을 받을 수 있습니다.
대부분 경우 데이터 담당자의 동의는 이미 얻었을 것입니다. 예를 들어, 최고 데이터 책임자와 최고 정보 책임자와 손을 잡고 작업을 주도한다면 CDO, CIO, CTO 역시 모두 같은 생각이고 따라서 자동으로 동의를 얻은 것이나 다름없다고 생각할 수 있습니다. 그러나 아키텍처 변경은 단기적으로 CIO와 CTO에게 더 많은 골칫거리를 의미하므로 CDO가 나서서 이들을 설득해야 합니다.
경영진의 또 다른 축인 최고 수익 책임자, 최고 분석 책임자, 최고 재무 책임자는 여러분이 원하는 것을 같이 원하고 동참할 수 있습니다. 그러나 이들이 동참한다고 해서 목표에 이르기 위해 무엇이 필요한지에 대해 납득했다는 의미는 아닙니다. 따라서 전진하기 위해 무엇이 필요한지, 이들이 치워줘야 할 장애물은 무엇인지를 명확히 설명해야 합니다. 또한 성공적인 도입을 위해서는 이런 사고방식이 기업에 완전히 스며들어야 합니다.
7) 회사 문화
모든 노력도 회사 문화가 적대적이라면 아무런 효과를 거둘 수 없습니다. '고장 나지 않은 것을 고치지 않는다'는 문화가 팽배하다면 극복해야 합니다. 데이터 아키텍처의 어느 부분이, 얼마나 고장 났는지 모두가 알지는 못하므로 끊임없는 설득이 필요할 수 있습니다.
현대적 데이터 아키텍처를 구축하는 과정에서 저지르는 실수
1) 데이터 레이크하우스 구현 이후를 고려하지 않음
데이터 레이크하우스를 구현하면 현대적 데이터 아키텍처의 목표 중 몇 가지는 달성할 수 있습니다. 중요한 것은 이 구현을 넘어 이후의 일까지 생각하는 것입니다. 먼저 다음과 같은 사항을 인지해야 합니다.
전통적인 데이터 웨어하우스는 엄격하게 구조화됩니다. 데이터 변환이 필요한 경우가 많고, 이는 필연적으로 데이터 품질 저하로 이어집니다.
그 대안인 데이터 레이크는 원시 데이터를 저장하는 곳이 되었습니다. 변환은 없고, 데이터는 필요할 때 언제든 사용할 수 있도록 원시 형태로 저장되었습니다. 문제는 구조가 취약하여 안에 무엇이 포함되어 있는지 쉽게 파악할 수 없으며, 그로 인해 데이터의 늪이 되는 경우가 많다는 것입니다. 게다가 데이터 레이크를 기존 데이터 웨어하우스와 결합하려는 경우 더 대대적인 변환 작업이 필요합니다.
클라우드에서 제공되는 형태의 데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크를 더 쉽게 사용할 수 있게 해줍니다.
종합적으로 데이터 레이크하우스는 대규모 분석 기능을 제공하나, 여전히 많은 데이터 변환이 일어나고 그에 따른 품질 저하가 발생합니다. 어느정도는 안도감을 느낄 수 있겠지만, 여전히 현대적 데이터 아키텍처는 갖추지 못한 상태입니다. 따라서 데이터 레이크하우스를 선택했다면 다음에 해야 할 일을 놓치면 안 됩니다.
2) 한 가지로 모든 과제를 해결할 수 있다는 생각
시간을 투자해서 현재의 레거시 자산과 목표, 시장을 고려해 여러분의 기업에 무엇이 적합한지 이해하는 것이 중요합니다. 여러 개념을 모아 이를 표준화하려는 업체도 있지만, 그 결과로 얻는 아키텍처는 여러분에게 맞지 않을 수 있습니다.
목록에서 하나를 고르면 끝나는 문제가 아닙니다. 무엇을 선택하든 장단점이 있기 때문입니다. 비용을 지출하기에 앞서 모델링과 평가를 포함한 신중한 프로세스를 실행하면 전진과 후퇴를 반복하는 일을 방지할 수 있습니다. 시간이 지나면서 이전 아키텍처의 좋은 기능이 여전히 필요한데 표준화된 접근 방식으로 그런 기능을 찾기가 어렵다는 것을 알게 됩니다. 기존 아키텍처에 여러 유용한 요소가 있는데 왜 버려야 할까요? 그런 요소를 다시 이용하려면 어떻게 해야 할까요? 앞으로 나아가기 위해 이를 어떻게 활용할 수 있을까요?
현대적 데이터 아키텍처를 선택할 때 고려할 사항
의도한 사용례와 비즈니스 성과 : 이런 모든 힘든 일과 비용을 감수하려는 이유가 무엇입니까? 무엇을 얻을 것으로 기대하고 있습니까?
기존 아키텍처 : 현재 사용 중인 아키텍처는 무엇입니까? 원하는 성과를 달성하는 과정에서 그 아키텍처의 어느 부분이 도움이 되고, 어느 부분이 방해가 됩니까?
후보 아키텍처 : 문제를 해결할 가능성이 가장 높은 접근 방식은 무엇입니까? 이런 접근 방식에 도달하기 위해 어떤 과정을 거쳤습니까?
기술, 리소스 및 전문성 : 목표로 한 아키텍처에 필요한 투자와 변경 사항은 무엇입니까?
로드맵 : 새로운 아키텍처를 추진하는 과정에서 취할 단계를 정의합니다.
커뮤니케이션 : 점진적인 진행 상황을 보여주십시오. 결과, 투자대비 효과, 긍정적인 부분, 부정적인 부분, 잘못된 부분 등을 로드맵에 보충해 사람들이 오해 없이 진행 상황을 충분히 숙지하도록 해야 합니다.
유연성 : 경직된 태도를 가지면 안 됩니다. 새로운 데이터 아키텍처로 전환하는 데 있어 "이게 정답입니다. 더 이상 의문을 제기하지 맙시다"와 같은 경직된 태도는 좋지 않습니다. 끊임없이 질문하고 조정한다는 마음가짐이 필요합니다. 시간이 지나면서 작은 변화와 조정이 발생하게 되므로 현재 채택 중인 아키텍처가 민첩하고 적응력이 높은지 확인해야 합니다.
현대적 데이터 아키텍처/전략을 구현하기 위한 단계
현대적 데이터 아키텍처를 구현하기 위해서는 기업 내 데이터를 효과적으로 관리 및 활용하기 위해 필수적인 여러 단계를 거쳐야 합니다. 주요 단계는 다음과 같습니다.
비즈니스 목표와 데이터 전략 정의 : 기업의 비즈니스 목표를 명확하게 식별하고 그 목표를 달성하기 위해 데이터가 어떻게 기여할 수 있는지 파악합니다. 데이터 거버넌스, 데이터 품질, 데이터 개인정보 보호, 데이터 보안과 같은 측면을 감안해 비즈니스 목표에 부합하는 데이터 전략을 수립합니다.
현재 데이터 환경 평가 : 기존 데이터 인프라, 시스템 및 프로세스를 평가합니다. 생성하거나 수집하는 데이터의 출처, 형식, 볼륨, 그리고 현재 사용 중인 데이터 스토리지, 통합, 분석 방법을 파악합니다. 현재 데이터 아키텍처에서 해결해야 할 간극 또는 제한 사항을 확인합니다.
데이터 통합 및 상호운용성을 위한 계획 수립 : 다양한 소스와 시스템의 데이터를 어떻게 수집, 통합 및 관리할 것인지 결정합니다. 데이터 파이프라인, ETL(Extract, Transform, Load) 프로세스, API 및 데이터 가상화와 같은 요구사항에 가장 잘 맞는 데이터 통합 기법과 기술을 파악합니다. 실시간 또는 일괄 처리 필요성을 고려하고 다양한 플랫폼 및 애플리케이션 간의 데이터 상호운용성을 보장합니다.
적절한 데이터 스토리지 솔루션 선택 : 요구사항에 따라 적절한 데이터 스토리지 기술을 선택합니다. 선택지에는 전통적인 관계형 데이터베이스, NoSQL 데이터베이스, 데이터 레이크 및 데이터 웨어하우스 등이 포함될 수 있습니다. 선택할 때는 확장성, 성능, 데이터 검색 속도, 비용, 데이터 거버넌스 역량과 같은 요소를 고려합니다.
데이터 거버넌스 프레임워크 구현 : 견실한 데이터 거버넌스 프레임워크를 구축해서 기업 전반적으로 데이터 품질과 일관성, 규정 준수를 보장합니다. 데이터 소유권, 데이터 스튜어드십, 데이터 관리 정책을 정의합니다. 데이터 거버넌스 툴과 프로세스를 구현해서 데이터 품질을 모니터링하고 데이터 표준을 시행하고 메타데이터를 관리합니다.
데이터 보안 및 개인정보 보호 수단 확립 : 데이터 보안 및 개인정보 보호는 현대적 데이터 아키텍처의 핵심적인 요소입니다. 암호화, 액세스 제어, 사용자 인증과 같은 적절한 보안 수단을 구현해서 민감한 데이터를 무단 액세스로부터 보호하십시오. 관련 데이터 개인정보 보호 규정을 준수하고 데이터 사용이 윤리 및 법적 가이드라인에 따르도록 해야 합니다.
데이터 분석 및 인사이트 실현 : 데이터 분석, 보고 및 시각화를 위한 툴과 기술을 구현하십시오. 이 부분에는 비즈니스 인텔리전스(BI) 플랫폼, 데이터 시각화 툴, 데이터 마이닝 기술 및 고급 분석 알고리즘이 사용됩니다. 분석 기능을 설계할 때는 경영진, 데이터 분석가, 데이터 과학자 등 기업 내 다양한 이해관계자의 요구사항을 고려해야 합니다.
클라우드 및 현대적 인프라 수용 : 클라우드 컴퓨팅과 현대적 인프라 기술을 활용해서 확장성, 유연성 및 비용 효율성을 강화하십시오. 클라우드 플랫폼이 스토리지, 처리 성능, 고급 분석 기능을 제공하므로 여러분은 인프라 관리가 아닌 인사이트에 집중할 수 있습니다. 요구사항에 따라 클라우드 제공업체, 하이브리드 클라우드 아키텍처 및 서버리스 컴퓨팅 옵션을 고려하십시오.
데이터 파이프라인 및 자동화 구현 : 효율적인 데이터 파이프라인을 만들어 데이터 수집, 통합 및 변환 프로세스를 자동화하십시오. 아파치 카프카(Apache Kafka), 아파치 에어플로우(Apache Airflow)와 같은 툴과 프레임워크 및 맞춤 제작 솔루션을 사용하여 데이터 흐름을 조율하고 반복적인 작업을 자동화하십시오. 이런 프로세스를 자동화하면 수작업을 줄이고 데이터 품질을 개선하고 실시간 데이터 처리를 실현할 수 있습니다.
데이터 중심 문화 조성 : 데이터 문해력을 높이고 데이터 분석 툴 및 기술에 대한 직원 교육을 실시하고 비즈니스 사용자와 데이터 전문가 간의 협업을 독려해 데이터 중심 문화를 촉진하십시오. 데이터 중심 의사 결정을 중시하고 지지하는 환경을 조성해야 합니다.
결론
데이터 아키텍처 현대화는 데이터의 잠재력을 최대한 활용하고자 하는 기업이라면 필수적으로 해야 할 일입니다. 극복해야 할 과제는 있지만, 기업의 요구사항을 충족하여 데이터와 인사이트, 경쟁력을 강화하기 위한 현대적 데이터 아키텍처를 개발하는 데 사용할 수 있는 옵션은 풍부합니다.
현대적 데이터 아키텍처 구현은 지속적인 개선과 비즈니스 요구사항에 따른 적응이 필요한 반복적인 프로세스임을 기억하십시오. 데이터 아키텍처를 주기적으로 평가하고 데이터 품질을 모니터링하고 새로운 기술과 트렌드를 탐색하여 빠르게 발전하는 데이터 환경에서 앞서 나가십시오.
데이터 아키텍처 현대화에 어려움을 겪고 계시거나 궁금한 점이 있으시면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다.
Quick Overview
현대적인 데이터 아키텍처를 구축할 때는 레거시 기술, 데이터 품질 문제, 보안과 규정 준수, 회사 문화 등의 다양한 문제가 따릅니다. 또한 과거에 구현했던 데이터 레이크하우스에 대해 고려하지 않거나 한 가지로 모든 문제를 해결할 수 있다는 생각에 빠져버리기도 합니다. 현대적 데이터 아키텍처를 선택할 때 고려해야 할 사항을 확인하고 효과적인 구현 방법을 알아봅니다.
모든 기업은 각자에 가장 타당한 데이터 아키텍처가 무엇인지 평가해야 합니다. 현대적 데이터 아키텍처의 적합성은 기업의 목표와 데이터 환경, 기술적 역량, 문화적 준비 상태에 따라 달라집니다.
1부에서는 전통적인 데이터 아키텍처가 현대적인 데이터 아키텍처로 변하게 된 과정을 살펴보고 현대적 데이터 아키텍처의 주요 특징을 알아보았습니다. 여기서는 최신 데이터 아키텍처 구축에 따르는 과제와 기업이 저지르는 흔한 실수, 최신 데이터 아키텍처 선책 시 고려해야 할 사항 등에 대해 알아봅니다.
최신 데이터 아키텍처의 중요성과 구현 시 고려사항 – 1부
현대적 데이터 아키텍처 구축의 과제
1) 레거시 기술
현재 사용 중인 기술 또는 그 기술의 기반이 되는 아키텍처가 최신 기술과 맞지 않는 기업에서는레거시 기술이 현대적 데이터 아키텍처 구축을 어렵게 만듭니다. 이런 시스템은 일반적으로 문서화가 제대로 되지 않은 상태고 이해도가 낮아 벗어나는 데 많은 시간과 비용이 소요됩니다. 여전히 많은 레거시 기술이 "망가지지 않았다면 고치지 말라"라는 원칙을 고수합니다.
소프트웨어 엔지니어 대부분은 오래된 레거시 시스템과 프로그래밍 언어에는 아무런 매력을 느끼지 못합니다. 기술 환경이 그동안 워낙 많이 바뀐 만큼 새로운 아키텍처로의 전환에는 위험이 따를 수 있습니다.
2) 또 다른 데이터 품질 문제의 늪에 대한 우려
데이터 품질 문제는 과거와 동일하거나 더 나쁜 데이터 사일로를 유발합니다. 새 아키텍처로 전환한다고 해서 데이터 품질 문제가 사라지는 것은 아닙니다.
현대화에 착수하기 전에 현재의 데이터를 면밀히 살펴보십시오. 데이터를 정제해야 하나요? 그 데이터로 무엇을 할 수 있나요? 지금 상태 그대로 현대적 데이터 아키텍처로 옮겨도 될 정도로 충분한 거버넌스가 구축돼 있나요?
확장성 또는 미래의 요구사항 등에 대한 고민 없이 지금 당장의 문제만 바라보고 현대적 데이터 아키텍처를 추진할 경우 또 다른 늪에 빠질 수 있습니다.
3) 생성형 AI를 지원하지 않는 데이터 인프라
경영진은 데이터에 생성형 AI 계층을 더할 것을 IT 부서에 요청하는 경우가 많습니다. 그러나 기반이 되는 데이터 인프라를 신뢰할 수 없다면 생성형 AI를 통해 얻은 인사이트 역시 신뢰할 수 없습니다. 시간을 투자해 데이터 인프라를 강화하지 않는 기업은 "쓰레기를 넣으면 쓰레기가 나온다"라는 격언을 현실로 마주하게 됩니다. AI를 성공적으로 활용하려면 엄격한 평가를 통해 현재의 데이터 파이프라인이 AI를 지원할 수 있는지 파악해야 합니다.
4) 보안과 규정 준수
현재 거버넌스가 제대로 되고 있지 않다면 많은 부분을 옮기는 것은 적절치 않습니다. 보안 대책 없는 아키텍처 전환은 위험합니다. 데이터 손실 또는 침해 위험이 발생할 뿐 아니라 내부 동의를 얻기 위한 동력이 빠르게 사라질 수도 있습니다. 새로운 아키텍처의 좋은 점에 대해 큰소리를 쳤는데, 이전의 문제가 그대로 옮겨와 전체 전략이 위태로워지는 상황을 상상해 보십시오.
5) 인재와 기술
데이터 아키텍처를 현대화하기 위한 인력을 구할 때는 2가지 문제에 직면할 수 있습니다. 하나는 아키텍처를 구현하고 해당 아키텍처의 기반 기술을 활용하기 위한 인재를 어디서 찾아야 하는지는 이미 알고 있지만, 이런 인력은 가만히 앉아 전화가 오기를 기다리지는 않는다는 것입니다. 이들을 찾는 회사는 많고, 그만큼 몸값이 비쌉니다.
다른 한편으로, 자신의 가치를 입증하고 비즈니스에 대한 많은 부족 지식(tribal knowledge)을 보유한 엔지니어와 데이터베이스 관리자는 이미 기업에 많을 수 있습니다. 최신 기술에 능통하지 않은 기존 직원에게 프로젝트를 맡길 수 있을까요? '목욕물 버리다 아이까지 버리지 말라'는 격언대로 하려면 어떻게 해야 할까요? 아키텍처에 대한 이들의 지식을 어떻게 발전시킬 수 있을까요? 이들 스스로 발전을 원하나요? 아니면 현 상태에 대한 변화를 두려워하나요?
6) 이해와 동의
전체 과정에서 여러분이 무엇을 하고 있는지 알리고, 왜 하는지 사람들이 이해하도록 해서 전체 프로세스에 걸쳐 동의를 구해야 합니다. 그렇게 해야 프로젝트를 위한 예산과 장애물을 넘어야 할 때 다른 사람들의 도움을 받을 수 있습니다.
대부분 경우 데이터 담당자의 동의는 이미 얻었을 것입니다. 예를 들어, 최고 데이터 책임자와 최고 정보 책임자와 손을 잡고 작업을 주도한다면 CDO, CIO, CTO 역시 모두 같은 생각이고 따라서 자동으로 동의를 얻은 것이나 다름없다고 생각할 수 있습니다. 그러나 아키텍처 변경은 단기적으로 CIO와 CTO에게 더 많은 골칫거리를 의미하므로 CDO가 나서서 이들을 설득해야 합니다.
경영진의 또 다른 축인 최고 수익 책임자, 최고 분석 책임자, 최고 재무 책임자는 여러분이 원하는 것을 같이 원하고 동참할 수 있습니다. 그러나 이들이 동참한다고 해서 목표에 이르기 위해 무엇이 필요한지에 대해 납득했다는 의미는 아닙니다. 따라서 전진하기 위해 무엇이 필요한지, 이들이 치워줘야 할 장애물은 무엇인지를 명확히 설명해야 합니다. 또한 성공적인 도입을 위해서는 이런 사고방식이 기업에 완전히 스며들어야 합니다.
7) 회사 문화
모든 노력도 회사 문화가 적대적이라면 아무런 효과를 거둘 수 없습니다. '고장 나지 않은 것을 고치지 않는다'는 문화가 팽배하다면 극복해야 합니다. 데이터 아키텍처의 어느 부분이, 얼마나 고장 났는지 모두가 알지는 못하므로 끊임없는 설득이 필요할 수 있습니다.
현대적 데이터 아키텍처를 구축하는 과정에서 저지르는 실수
1) 데이터 레이크하우스 구현 이후를 고려하지 않음
데이터 레이크하우스를 구현하면 현대적 데이터 아키텍처의 목표 중 몇 가지는 달성할 수 있습니다. 중요한 것은 이 구현을 넘어 이후의 일까지 생각하는 것입니다. 먼저 다음과 같은 사항을 인지해야 합니다.
전통적인 데이터 웨어하우스는 엄격하게 구조화됩니다. 데이터 변환이 필요한 경우가 많고, 이는 필연적으로 데이터 품질 저하로 이어집니다.
그 대안인 데이터 레이크는 원시 데이터를 저장하는 곳이 되었습니다. 변환은 없고, 데이터는 필요할 때 언제든 사용할 수 있도록 원시 형태로 저장되었습니다. 문제는 구조가 취약하여 안에 무엇이 포함되어 있는지 쉽게 파악할 수 없으며, 그로 인해 데이터의 늪이 되는 경우가 많다는 것입니다. 게다가 데이터 레이크를 기존 데이터 웨어하우스와 결합하려는 경우 더 대대적인 변환 작업이 필요합니다.
클라우드에서 제공되는 형태의 데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크를 더 쉽게 사용할 수 있게 해줍니다.
종합적으로 데이터 레이크하우스는 대규모 분석 기능을 제공하나, 여전히 많은 데이터 변환이 일어나고 그에 따른 품질 저하가 발생합니다. 어느정도는 안도감을 느낄 수 있겠지만, 여전히 현대적 데이터 아키텍처는 갖추지 못한 상태입니다. 따라서 데이터 레이크하우스를 선택했다면 다음에 해야 할 일을 놓치면 안 됩니다.
2) 한 가지로 모든 과제를 해결할 수 있다는 생각
시간을 투자해서 현재의 레거시 자산과 목표, 시장을 고려해 여러분의 기업에 무엇이 적합한지 이해하는 것이 중요합니다. 여러 개념을 모아 이를 표준화하려는 업체도 있지만, 그 결과로 얻는 아키텍처는 여러분에게 맞지 않을 수 있습니다.
목록에서 하나를 고르면 끝나는 문제가 아닙니다. 무엇을 선택하든 장단점이 있기 때문입니다. 비용을 지출하기에 앞서 모델링과 평가를 포함한 신중한 프로세스를 실행하면 전진과 후퇴를 반복하는 일을 방지할 수 있습니다. 시간이 지나면서 이전 아키텍처의 좋은 기능이 여전히 필요한데 표준화된 접근 방식으로 그런 기능을 찾기가 어렵다는 것을 알게 됩니다. 기존 아키텍처에 여러 유용한 요소가 있는데 왜 버려야 할까요? 그런 요소를 다시 이용하려면 어떻게 해야 할까요? 앞으로 나아가기 위해 이를 어떻게 활용할 수 있을까요?
현대적 데이터 아키텍처를 선택할 때 고려할 사항
의도한 사용례와 비즈니스 성과 : 이런 모든 힘든 일과 비용을 감수하려는 이유가 무엇입니까? 무엇을 얻을 것으로 기대하고 있습니까?
기존 아키텍처 : 현재 사용 중인 아키텍처는 무엇입니까? 원하는 성과를 달성하는 과정에서 그 아키텍처의 어느 부분이 도움이 되고, 어느 부분이 방해가 됩니까?
후보 아키텍처 : 문제를 해결할 가능성이 가장 높은 접근 방식은 무엇입니까? 이런 접근 방식에 도달하기 위해 어떤 과정을 거쳤습니까?
기술, 리소스 및 전문성 : 목표로 한 아키텍처에 필요한 투자와 변경 사항은 무엇입니까?
로드맵 : 새로운 아키텍처를 추진하는 과정에서 취할 단계를 정의합니다.
커뮤니케이션 : 점진적인 진행 상황을 보여주십시오. 결과, 투자대비 효과, 긍정적인 부분, 부정적인 부분, 잘못된 부분 등을 로드맵에 보충해 사람들이 오해 없이 진행 상황을 충분히 숙지하도록 해야 합니다.
유연성 : 경직된 태도를 가지면 안 됩니다. 새로운 데이터 아키텍처로 전환하는 데 있어 "이게 정답입니다. 더 이상 의문을 제기하지 맙시다"와 같은 경직된 태도는 좋지 않습니다. 끊임없이 질문하고 조정한다는 마음가짐이 필요합니다. 시간이 지나면서 작은 변화와 조정이 발생하게 되므로 현재 채택 중인 아키텍처가 민첩하고 적응력이 높은지 확인해야 합니다.
현대적 데이터 아키텍처/전략을 구현하기 위한 단계
현대적 데이터 아키텍처를 구현하기 위해서는 기업 내 데이터를 효과적으로 관리 및 활용하기 위해 필수적인 여러 단계를 거쳐야 합니다. 주요 단계는 다음과 같습니다.
비즈니스 목표와 데이터 전략 정의 : 기업의 비즈니스 목표를 명확하게 식별하고 그 목표를 달성하기 위해 데이터가 어떻게 기여할 수 있는지 파악합니다. 데이터 거버넌스, 데이터 품질, 데이터 개인정보 보호, 데이터 보안과 같은 측면을 감안해 비즈니스 목표에 부합하는 데이터 전략을 수립합니다.
현재 데이터 환경 평가 : 기존 데이터 인프라, 시스템 및 프로세스를 평가합니다. 생성하거나 수집하는 데이터의 출처, 형식, 볼륨, 그리고 현재 사용 중인 데이터 스토리지, 통합, 분석 방법을 파악합니다. 현재 데이터 아키텍처에서 해결해야 할 간극 또는 제한 사항을 확인합니다.
데이터 통합 및 상호운용성을 위한 계획 수립 : 다양한 소스와 시스템의 데이터를 어떻게 수집, 통합 및 관리할 것인지 결정합니다. 데이터 파이프라인, ETL(Extract, Transform, Load) 프로세스, API 및 데이터 가상화와 같은 요구사항에 가장 잘 맞는 데이터 통합 기법과 기술을 파악합니다. 실시간 또는 일괄 처리 필요성을 고려하고 다양한 플랫폼 및 애플리케이션 간의 데이터 상호운용성을 보장합니다.
적절한 데이터 스토리지 솔루션 선택 : 요구사항에 따라 적절한 데이터 스토리지 기술을 선택합니다. 선택지에는 전통적인 관계형 데이터베이스, NoSQL 데이터베이스, 데이터 레이크 및 데이터 웨어하우스 등이 포함될 수 있습니다. 선택할 때는 확장성, 성능, 데이터 검색 속도, 비용, 데이터 거버넌스 역량과 같은 요소를 고려합니다.
데이터 거버넌스 프레임워크 구현 : 견실한 데이터 거버넌스 프레임워크를 구축해서 기업 전반적으로 데이터 품질과 일관성, 규정 준수를 보장합니다. 데이터 소유권, 데이터 스튜어드십, 데이터 관리 정책을 정의합니다. 데이터 거버넌스 툴과 프로세스를 구현해서 데이터 품질을 모니터링하고 데이터 표준을 시행하고 메타데이터를 관리합니다.
데이터 보안 및 개인정보 보호 수단 확립 : 데이터 보안 및 개인정보 보호는 현대적 데이터 아키텍처의 핵심적인 요소입니다. 암호화, 액세스 제어, 사용자 인증과 같은 적절한 보안 수단을 구현해서 민감한 데이터를 무단 액세스로부터 보호하십시오. 관련 데이터 개인정보 보호 규정을 준수하고 데이터 사용이 윤리 및 법적 가이드라인에 따르도록 해야 합니다.
데이터 분석 및 인사이트 실현 : 데이터 분석, 보고 및 시각화를 위한 툴과 기술을 구현하십시오. 이 부분에는 비즈니스 인텔리전스(BI) 플랫폼, 데이터 시각화 툴, 데이터 마이닝 기술 및 고급 분석 알고리즘이 사용됩니다. 분석 기능을 설계할 때는 경영진, 데이터 분석가, 데이터 과학자 등 기업 내 다양한 이해관계자의 요구사항을 고려해야 합니다.
클라우드 및 현대적 인프라 수용 : 클라우드 컴퓨팅과 현대적 인프라 기술을 활용해서 확장성, 유연성 및 비용 효율성을 강화하십시오. 클라우드 플랫폼이 스토리지, 처리 성능, 고급 분석 기능을 제공하므로 여러분은 인프라 관리가 아닌 인사이트에 집중할 수 있습니다. 요구사항에 따라 클라우드 제공업체, 하이브리드 클라우드 아키텍처 및 서버리스 컴퓨팅 옵션을 고려하십시오.
데이터 파이프라인 및 자동화 구현 : 효율적인 데이터 파이프라인을 만들어 데이터 수집, 통합 및 변환 프로세스를 자동화하십시오. 아파치 카프카(Apache Kafka), 아파치 에어플로우(Apache Airflow)와 같은 툴과 프레임워크 및 맞춤 제작 솔루션을 사용하여 데이터 흐름을 조율하고 반복적인 작업을 자동화하십시오. 이런 프로세스를 자동화하면 수작업을 줄이고 데이터 품질을 개선하고 실시간 데이터 처리를 실현할 수 있습니다.
데이터 중심 문화 조성 : 데이터 문해력을 높이고 데이터 분석 툴 및 기술에 대한 직원 교육을 실시하고 비즈니스 사용자와 데이터 전문가 간의 협업을 독려해 데이터 중심 문화를 촉진하십시오. 데이터 중심 의사 결정을 중시하고 지지하는 환경을 조성해야 합니다.
결론
데이터 아키텍처 현대화는 데이터의 잠재력을 최대한 활용하고자 하는 기업이라면 필수적으로 해야 할 일입니다. 극복해야 할 과제는 있지만, 기업의 요구사항을 충족하여 데이터와 인사이트, 경쟁력을 강화하기 위한 현대적 데이터 아키텍처를 개발하는 데 사용할 수 있는 옵션은 풍부합니다.
현대적 데이터 아키텍처 구현은 지속적인 개선과 비즈니스 요구사항에 따른 적응이 필요한 반복적인 프로세스임을 기억하십시오. 데이터 아키텍처를 주기적으로 평가하고 데이터 품질을 모니터링하고 새로운 기술과 트렌드를 탐색하여 빠르게 발전하는 데이터 환경에서 앞서 나가십시오.
데이터 아키텍처 현대화에 어려움을 겪고 계시거나 궁금한 점이 있으시면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다.