Quick Overview 데이터를 효과적으로 활용하기 위해서는 데이터의 구조화가 중요합니다. 과거에는 데이터가 비즈니스 운영 유지 용도로 더 많이 활용됐다면, 이제는 데이터에서 얻는 인사이트가 기업에 전략적 기반을 제공하면서 데이터 아키텍처가 핵심 요소가 되었습니다. 여기서는 데이터 아키텍처의 진화 과정을 살펴보고, 다양한 목적에 맞는 여러 중류의 아키텍처를 설명합니다. |
데이터 아키텍처 현대화는 경쟁력을 유지하고 데이터 자산을 더 효과적으로 활용하기 위한 중요한 과업입니다. 기업 관점에서 데이터는 비즈니스를 위해 필요한 비용이 아닌 자산이며, 이에 따라 많은 기업에서 데이터를 최대한 잘 활용하기 위한 데이터 구조화를 가장 중요한 과제로 인식하고 있습니다. 그러나 비즈니스를 효과적으로 지원하는 현대적 데이터 아키텍처를 구현하는 것은 또 다른 과제가 될 수 있습니다.
데이터 아키텍처의 진화
전통적으로 데이터 아키텍처는 일상적인 비즈니스 운영을 지원하도록, 즉 비즈니스 프로세스에서 고객을 포착/이동/관리하도록 설계되었습니다. 운영 시스템과 그 시스템 안에 있는 데이터를 파악한 다음 데이터를 캡처해 프로세스와 운영에 초점을 둔 전용 데이터베이스에 저장하는 방식입니다.
이후 사람들은 이런 모든 데이터에서 인사이트를 도출할 수 있다는 사실을 인식했습니다. 그러나 모든 것이 철저히 비즈니스 운영을 목적으로 구축되었으므로 분석은 부수적인 요소였습니다. 비즈니스 인텔리전스를 얻기 위해서는 모든 데이터를 데이터 웨어하우스 또는 데이터 레이크와 같은 중앙 위치에 저장해야 했지만, 이는 곧 데이터의 질이 저하된다는 의미였습니다. 모든 데이터가 서로 잘 맞는 것은 아니기 때문입니다. 기존 데이터 아키텍처 패러다임에서는 연간 매출 분석과 같은 단순한 비즈니스 인텔리전스를 얻기 위한 작업도 매우 노동 집약적인 프로세스가 될 수 있습니다.
데이터를 사용 가능한 형식으로 만들기 위해 이동하는 작업은 다양한 과제를 수반합니다. ETL 시스템은 분석 시스템의 내용을 채우기 위한 목적으로 만들어졌지만, 오래된 데이터를 기반으로 분석하는 경우가 많았습니다. 또한 스노우플레이크(Snowflake), 데이터브릭스(Databricks)와 같은 현대적 데이터 플랫폼이 등장하기 전까지는 동일한 데이터에서 관계형 데이터베이스 관리 시스템(RDBMS)과 분석 워크로드를 결합하는 것은 불가능했습니다.
전반적으로 데이터를 보는 기업의 시각에서 가장 큰 변화는 데이터 아키텍처의 우선 순위가 높아졌다는 것입니다. 데이터가 해결해야 하는 문제는 과거의 트랜잭션(비즈니스 운영 유지)에서 이제 분석(데이터 인사이트를 기반으로 견실한 전략적 기반 제공)으로 발전했습니다.
현대적 데이터 아키텍처의 중심 축과 혜택
상호운용성
데이터 웨어하우스를 볼 때는 데이터의 최소 공통 분모를 살펴보면서 데이터를 어떻게 조합할 수 있는지 확인해야 합니다. 데이터를 변환하고 만진다는 것은 곧 데이터의 일부가 손실됨을 의미하지만, 그렇게 하지 않으면 각 사일로가 서로 맞지 않는 상태가 됩니다. 이를 통해 현대적 데이터 아키텍처를 통해 달성하고자 하는 바를 알 수 있습니다. 즉, 데이터의 품질 저하 없이 상호운용성을 훨씬 더 높이는 것입니다.
상호운용성을 달성하는 현명한 방법은 기업에서 데이터를 캡처하는 방법을 표준화해서 변환 및 품질 저하를 없애는 것입니다. 운영, 일상적인 업무, 비용 및 시간 측면에서 표준화는 데이터 통합을 간소화하고 비용을 낮춰줍니다. 데이터가 서로 잘 맞도록 설계된다면 데이터를 맞추기 위한 분석과 프로그래밍에 시간을 소비할 필요가 없습니다.
탈중앙화와 분산 데이터 거버넌스
데이터 메시는 데이터 설계자 관점에서 매력적인 현대적 데이터 아키텍처 중 하나입니다. 데이터 메시의 목표는 데이터에 대한 통제 권한을 해당 데이터와 가까운 사람에게 부여하는 것입니다. 여기까지 보면 탈중앙화와 별 관계가 없는 것 같지만, 표준화라는 핵심적인 개념을 결합하면 달라집니다. 큰 그림과 전문성 맥락에서 보면 탈중앙화를 통해 각 전문 분야별 기술을 활용하는 것이 좋습니다. 다만 이것이 데이터가 중앙으로 모이는 것을 막아서는 안 됩니다.
정부와 동일한 원칙에 따라 운영되는 연방에 대해 생각해 보십시오. 연방 정부가 큰 그림을 그리고 규칙과 표준을 설정하면 각 주에서는 이를 각자에게 타당한 방식으로 해석합니다. 데이터가 연합되면 데이터 거버넌스, 데이터 아키텍처와 같은 데이터 개념은 연합된 모델을 따릅니다. 최상위 수준에서 모든 것을 원활하게 연결하기 위한 요소를 정의하고, 개별 주제의 전문성을 위한 유연성을 허용합니다. 예를 들어 마케팅 담당자는 마케팅 데이터에 대해, 영업 담당자는 영업 데이터에 대해 최종적인 책임을 집니다.
궁극적으로 이 모델은 중앙 규칙(예를 들어 개인 데이터는 어느 도메인에 위치하든 개인 데이터로 취급됨)을 특징으로 하는 분산 또는 연합 데이터 거버넌스로 이어집니다. 동시에, 해당 프레임워크 내의 차이점에 대한 가드레일을 제공해 각 부서가 다른 차선으로 넘어 들어가지 않으면서 어느 정도의 유연성을 확보할 수 있도록 합니다.
셀프 서비스와 발견 가능성
과거에는 IT 부서가 데이터를 소유하면서 비즈니스 사용자가 데이터에 액세스하도록 허용하는 것이 일반적이었습니다. 누구든 데이터를 사용해 작업을 하려면 게이트키퍼를 거쳐야 했으므로 이런 방식은 합리적이고 위험도 낮출 수 있었습니다. 그러나 게이트키퍼는 확장되지 않고 결과적으로 성장하기가 어렵습니다.
지금은 사용자가 데이터를 소유하도록 해서 장애물을 넘거나 복잡한 관문을 거치지 않고 데이터에 액세스할 수 있도록 하는 편이 현명합니다. 이를 위해서는 먼저 데이터를 정의하고 관리하는 방법에 대한 확신이 필요합니다.
셀프 서비스와 발견 가능성(discoverability)은 모든 사람이 각자의 기술 수준과 상황에 따라 권한 있는 데이터 시민이 되도록 하는 것입니다. 셀프 서비스와 발견 가능성은 비즈니스에서 비롯되는 아이디어화와 혁신을 지원합니다. 사용자가 스스로 더 많은 일을 할 수 있으므로 가치 실현 시간이 단축됩니다. 이는 통제력을 유지하고 위험을 완화하면서 확장성으로 향하는 큰 진전입니다.
자동화 및 인프라 관리
셀프 서비스와 발견 가능성은 자동화 및 인프라 관리와 밀접하게 관련되며, 이를 통해 아키텍처는 비즈니스의 요구 사항과 보조를 맞출 수 있습니다. 또한 이는 사람이 수시로 개입하는 일 없이 프로세스가 설계된 대로 반복적, 안정적으로 실행되도록 보장합니다. 자동화가 더 깔끔하고 철저할수록 더 많은 위험을 감수하지 않으면서 더 빠르게 움직일 수 있습니다.
지속적 통합/지속적 배포(CI/CD)
CI/CD는 비즈니스에 적시에, 효과적으로 소프트웨어를 제공하는 데 적용되는 애자일 데브옵스 접근 방식입니다. 데브옵스 대신 데이터에 특화되므로 데이터옵스라고 합니다. 현대 데이터 아키텍처의 중심은 시간입니다. 데이터로 대변되는 기회는 시간적으로 제한되기 때문입니다. 이제는 예전처럼 지난달의 실적 수치를 다음 달 20일에 얻는 방식은 사용할 수 없습니다. 기회는 다음 분기까지 기다려주지 않습니다.
사용 가능한 현대적 데이터 아키텍처 옵션
현대적 데이터 아키텍처 선택은 기업의 목표와 데이터 특성, 기술적 전문성, 비즈니스 요구사항에 따라야 합니다. 다양한 아키텍처의 요소를 결합하면 균형 잡힌 솔루션을 얻을 수 있습니다.
데이터 메시 : 데이터 메시는 데이터의 소유권을 그 데이터를 생산하는 사람에게 부여함으로써 데이터 관리를 탈중앙화하는 것을 목표로 합니다.
데이터 패브릭 : 데이터 패브릭은 서비스를 사용하여 여러 데이터 소스를 액세스 가능한 하나의 구조로 연결하고 통합합니다.
람다 아키텍처 : 람다 아키텍처는 배치(batch)와 실시간 데이터 처리를 결합하여 대량의 데이터를 처리합니다.
카파(Kappa) 아키텍처 : 카파 아키텍처는 데이터 스트림이 도달하는 대로 처리하는 데 중점을 두는 하나의 데이터 처리 스트림을 사용합니다.
데이터 레이크 아키텍처 : 데이터 레이크를 통해 조직은 정형화 또는 스키마 없이 데이터를 네이티브 형식으로 저장할 수 있습니다.
클라우드 네이티브 아키텍처 : 클라우드 네이티브 아키텍처는 여러 클라우드 서비스를 사용하여 동적 애플리케이션을 구축합니다.
데이터 웨어하우스 아키텍처 : 데이터 웨어하우스는 중앙 데이터 저장소입니다. 데이터 웨어하우스를 분석하여 더 나은 의사 결정을 내릴 수 있습니다.
이벤트 기반 아키텍처 : 이벤트 기반 아키텍처를 통해 조직은 ‘이벤트’를 감지하고 관련 조치를 실시간으로 취할 수 있습니다.
마이크로서비스 아키텍처 : 마이크로서비스 아키텍처는 상호작용할 수 있는 여러 독립적인 서비스입니다. 느슨하게 결합되지만 어느정도 독립적으로 관리, 유지, 테스트 및 배포가 가능합니다. 대체로 특정 비즈니스 역량 또는 애플리케이션 기능 영역을 기반으로 합니다.
하이브리드 클라우드 아키텍처 : 하이브리드 클라우드 아키텍처는 프라이빗 클라우드와 퍼블릭 클라우드 환경을 결합합니다. 이를 통해 일정 정도의 분리를 유지하면서 데이터와 애플리케이션을 공유할 수 있습니다.
서버리스 아키텍처 : 서버리스 아키텍처는 조직에서 기반 인프라 관리 없이 애플리케이션과 서비스를 실행하고 만들 수 있게 해줍니다.
모든 기업은 각자에 가장 타당한 데이터 아키텍처가 무엇인지 평가해야 합니다. 현대적 데이터 아키텍처의 적합성은 기업의 목표와 데이터 환경, 기술적 역량, 문화적 준비 상태에 따라 달라집니다. 2부에서는 최신 데이터 아키텍처 구축에 따르는 과제와 조직이 저지르는 흔한 실수, 최신 데이터 아키텍처 선책 시 고려해야 할 사항 등을 설명합니다.
어떤 아키텍처가 기업에 적합한지 결정하는 데 어려움을 겪고 계시거나 데이터 아키텍처에 대해 궁금한 점이 있으시면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다.
Quick Overview
데이터를 효과적으로 활용하기 위해서는 데이터의 구조화가 중요합니다. 과거에는 데이터가 비즈니스 운영 유지 용도로 더 많이 활용됐다면, 이제는 데이터에서 얻는 인사이트가 기업에 전략적 기반을 제공하면서 데이터 아키텍처가 핵심 요소가 되었습니다. 여기서는 데이터 아키텍처의 진화 과정을 살펴보고, 다양한 목적에 맞는 여러 중류의 아키텍처를 설명합니다.
데이터 아키텍처 현대화는 경쟁력을 유지하고 데이터 자산을 더 효과적으로 활용하기 위한 중요한 과업입니다. 기업 관점에서 데이터는 비즈니스를 위해 필요한 비용이 아닌 자산이며, 이에 따라 많은 기업에서 데이터를 최대한 잘 활용하기 위한 데이터 구조화를 가장 중요한 과제로 인식하고 있습니다. 그러나 비즈니스를 효과적으로 지원하는 현대적 데이터 아키텍처를 구현하는 것은 또 다른 과제가 될 수 있습니다.
데이터 아키텍처의 진화
전통적으로 데이터 아키텍처는 일상적인 비즈니스 운영을 지원하도록, 즉 비즈니스 프로세스에서 고객을 포착/이동/관리하도록 설계되었습니다. 운영 시스템과 그 시스템 안에 있는 데이터를 파악한 다음 데이터를 캡처해 프로세스와 운영에 초점을 둔 전용 데이터베이스에 저장하는 방식입니다.
이후 사람들은 이런 모든 데이터에서 인사이트를 도출할 수 있다는 사실을 인식했습니다. 그러나 모든 것이 철저히 비즈니스 운영을 목적으로 구축되었으므로 분석은 부수적인 요소였습니다. 비즈니스 인텔리전스를 얻기 위해서는 모든 데이터를 데이터 웨어하우스 또는 데이터 레이크와 같은 중앙 위치에 저장해야 했지만, 이는 곧 데이터의 질이 저하된다는 의미였습니다. 모든 데이터가 서로 잘 맞는 것은 아니기 때문입니다. 기존 데이터 아키텍처 패러다임에서는 연간 매출 분석과 같은 단순한 비즈니스 인텔리전스를 얻기 위한 작업도 매우 노동 집약적인 프로세스가 될 수 있습니다.
데이터를 사용 가능한 형식으로 만들기 위해 이동하는 작업은 다양한 과제를 수반합니다. ETL 시스템은 분석 시스템의 내용을 채우기 위한 목적으로 만들어졌지만, 오래된 데이터를 기반으로 분석하는 경우가 많았습니다. 또한 스노우플레이크(Snowflake), 데이터브릭스(Databricks)와 같은 현대적 데이터 플랫폼이 등장하기 전까지는 동일한 데이터에서 관계형 데이터베이스 관리 시스템(RDBMS)과 분석 워크로드를 결합하는 것은 불가능했습니다.
전반적으로 데이터를 보는 기업의 시각에서 가장 큰 변화는 데이터 아키텍처의 우선 순위가 높아졌다는 것입니다. 데이터가 해결해야 하는 문제는 과거의 트랜잭션(비즈니스 운영 유지)에서 이제 분석(데이터 인사이트를 기반으로 견실한 전략적 기반 제공)으로 발전했습니다.
현대적 데이터 아키텍처의 중심 축과 혜택
상호운용성
데이터 웨어하우스를 볼 때는 데이터의 최소 공통 분모를 살펴보면서 데이터를 어떻게 조합할 수 있는지 확인해야 합니다. 데이터를 변환하고 만진다는 것은 곧 데이터의 일부가 손실됨을 의미하지만, 그렇게 하지 않으면 각 사일로가 서로 맞지 않는 상태가 됩니다. 이를 통해 현대적 데이터 아키텍처를 통해 달성하고자 하는 바를 알 수 있습니다. 즉, 데이터의 품질 저하 없이 상호운용성을 훨씬 더 높이는 것입니다.
상호운용성을 달성하는 현명한 방법은 기업에서 데이터를 캡처하는 방법을 표준화해서 변환 및 품질 저하를 없애는 것입니다. 운영, 일상적인 업무, 비용 및 시간 측면에서 표준화는 데이터 통합을 간소화하고 비용을 낮춰줍니다. 데이터가 서로 잘 맞도록 설계된다면 데이터를 맞추기 위한 분석과 프로그래밍에 시간을 소비할 필요가 없습니다.
탈중앙화와 분산 데이터 거버넌스
데이터 메시는 데이터 설계자 관점에서 매력적인 현대적 데이터 아키텍처 중 하나입니다. 데이터 메시의 목표는 데이터에 대한 통제 권한을 해당 데이터와 가까운 사람에게 부여하는 것입니다. 여기까지 보면 탈중앙화와 별 관계가 없는 것 같지만, 표준화라는 핵심적인 개념을 결합하면 달라집니다. 큰 그림과 전문성 맥락에서 보면 탈중앙화를 통해 각 전문 분야별 기술을 활용하는 것이 좋습니다. 다만 이것이 데이터가 중앙으로 모이는 것을 막아서는 안 됩니다.
정부와 동일한 원칙에 따라 운영되는 연방에 대해 생각해 보십시오. 연방 정부가 큰 그림을 그리고 규칙과 표준을 설정하면 각 주에서는 이를 각자에게 타당한 방식으로 해석합니다. 데이터가 연합되면 데이터 거버넌스, 데이터 아키텍처와 같은 데이터 개념은 연합된 모델을 따릅니다. 최상위 수준에서 모든 것을 원활하게 연결하기 위한 요소를 정의하고, 개별 주제의 전문성을 위한 유연성을 허용합니다. 예를 들어 마케팅 담당자는 마케팅 데이터에 대해, 영업 담당자는 영업 데이터에 대해 최종적인 책임을 집니다.
궁극적으로 이 모델은 중앙 규칙(예를 들어 개인 데이터는 어느 도메인에 위치하든 개인 데이터로 취급됨)을 특징으로 하는 분산 또는 연합 데이터 거버넌스로 이어집니다. 동시에, 해당 프레임워크 내의 차이점에 대한 가드레일을 제공해 각 부서가 다른 차선으로 넘어 들어가지 않으면서 어느 정도의 유연성을 확보할 수 있도록 합니다.
셀프 서비스와 발견 가능성
과거에는 IT 부서가 데이터를 소유하면서 비즈니스 사용자가 데이터에 액세스하도록 허용하는 것이 일반적이었습니다. 누구든 데이터를 사용해 작업을 하려면 게이트키퍼를 거쳐야 했으므로 이런 방식은 합리적이고 위험도 낮출 수 있었습니다. 그러나 게이트키퍼는 확장되지 않고 결과적으로 성장하기가 어렵습니다.
지금은 사용자가 데이터를 소유하도록 해서 장애물을 넘거나 복잡한 관문을 거치지 않고 데이터에 액세스할 수 있도록 하는 편이 현명합니다. 이를 위해서는 먼저 데이터를 정의하고 관리하는 방법에 대한 확신이 필요합니다.
셀프 서비스와 발견 가능성(discoverability)은 모든 사람이 각자의 기술 수준과 상황에 따라 권한 있는 데이터 시민이 되도록 하는 것입니다. 셀프 서비스와 발견 가능성은 비즈니스에서 비롯되는 아이디어화와 혁신을 지원합니다. 사용자가 스스로 더 많은 일을 할 수 있으므로 가치 실현 시간이 단축됩니다. 이는 통제력을 유지하고 위험을 완화하면서 확장성으로 향하는 큰 진전입니다.
자동화 및 인프라 관리
셀프 서비스와 발견 가능성은 자동화 및 인프라 관리와 밀접하게 관련되며, 이를 통해 아키텍처는 비즈니스의 요구 사항과 보조를 맞출 수 있습니다. 또한 이는 사람이 수시로 개입하는 일 없이 프로세스가 설계된 대로 반복적, 안정적으로 실행되도록 보장합니다. 자동화가 더 깔끔하고 철저할수록 더 많은 위험을 감수하지 않으면서 더 빠르게 움직일 수 있습니다.
지속적 통합/지속적 배포(CI/CD)
CI/CD는 비즈니스에 적시에, 효과적으로 소프트웨어를 제공하는 데 적용되는 애자일 데브옵스 접근 방식입니다. 데브옵스 대신 데이터에 특화되므로 데이터옵스라고 합니다. 현대 데이터 아키텍처의 중심은 시간입니다. 데이터로 대변되는 기회는 시간적으로 제한되기 때문입니다. 이제는 예전처럼 지난달의 실적 수치를 다음 달 20일에 얻는 방식은 사용할 수 없습니다. 기회는 다음 분기까지 기다려주지 않습니다.
사용 가능한 현대적 데이터 아키텍처 옵션
현대적 데이터 아키텍처 선택은 기업의 목표와 데이터 특성, 기술적 전문성, 비즈니스 요구사항에 따라야 합니다. 다양한 아키텍처의 요소를 결합하면 균형 잡힌 솔루션을 얻을 수 있습니다.
데이터 메시 : 데이터 메시는 데이터의 소유권을 그 데이터를 생산하는 사람에게 부여함으로써 데이터 관리를 탈중앙화하는 것을 목표로 합니다.
데이터 패브릭 : 데이터 패브릭은 서비스를 사용하여 여러 데이터 소스를 액세스 가능한 하나의 구조로 연결하고 통합합니다.
람다 아키텍처 : 람다 아키텍처는 배치(batch)와 실시간 데이터 처리를 결합하여 대량의 데이터를 처리합니다.
카파(Kappa) 아키텍처 : 카파 아키텍처는 데이터 스트림이 도달하는 대로 처리하는 데 중점을 두는 하나의 데이터 처리 스트림을 사용합니다.
데이터 레이크 아키텍처 : 데이터 레이크를 통해 조직은 정형화 또는 스키마 없이 데이터를 네이티브 형식으로 저장할 수 있습니다.
클라우드 네이티브 아키텍처 : 클라우드 네이티브 아키텍처는 여러 클라우드 서비스를 사용하여 동적 애플리케이션을 구축합니다.
데이터 웨어하우스 아키텍처 : 데이터 웨어하우스는 중앙 데이터 저장소입니다. 데이터 웨어하우스를 분석하여 더 나은 의사 결정을 내릴 수 있습니다.
이벤트 기반 아키텍처 : 이벤트 기반 아키텍처를 통해 조직은 ‘이벤트’를 감지하고 관련 조치를 실시간으로 취할 수 있습니다.
마이크로서비스 아키텍처 : 마이크로서비스 아키텍처는 상호작용할 수 있는 여러 독립적인 서비스입니다. 느슨하게 결합되지만 어느정도 독립적으로 관리, 유지, 테스트 및 배포가 가능합니다. 대체로 특정 비즈니스 역량 또는 애플리케이션 기능 영역을 기반으로 합니다.
하이브리드 클라우드 아키텍처 : 하이브리드 클라우드 아키텍처는 프라이빗 클라우드와 퍼블릭 클라우드 환경을 결합합니다. 이를 통해 일정 정도의 분리를 유지하면서 데이터와 애플리케이션을 공유할 수 있습니다.
서버리스 아키텍처 : 서버리스 아키텍처는 조직에서 기반 인프라 관리 없이 애플리케이션과 서비스를 실행하고 만들 수 있게 해줍니다.
모든 기업은 각자에 가장 타당한 데이터 아키텍처가 무엇인지 평가해야 합니다. 현대적 데이터 아키텍처의 적합성은 기업의 목표와 데이터 환경, 기술적 역량, 문화적 준비 상태에 따라 달라집니다. 2부에서는 최신 데이터 아키텍처 구축에 따르는 과제와 조직이 저지르는 흔한 실수, 최신 데이터 아키텍처 선책 시 고려해야 할 사항 등을 설명합니다.
어떤 아키텍처가 기업에 적합한지 결정하는 데 어려움을 겪고 계시거나 데이터 아키텍처에 대해 궁금한 점이 있으시면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다.