Quick Overview 동적 데이터 이동이 전통적인 데이터베이스 복제 방식을 대체하고 있습니다. 동적 데이터 이동에 있어서 고려해야 할 점은 데이터의 이해, 품질, 구조, 사용, 계보뿐 아니라 의미론적 매핑까지 다양합니다. 이런 여러 장애물을 극복하고 문제없이 데이터 이동 프로세스를 완료하기 위해서는 데이터 모델링과 데이터 거버넌스가 필요합니다. |
기업이 보유한 데이터의 크기와 가치가 점점 커지고 있습니다. 기업은 데이터를 현재 위치에서 다른 위치로 옮기는 ‘데이터 이동’을 통해 의사 결정권자가 매출로 연결되는 인사이트를 얻을 수 있도록 데이터를 적재적소에 배치할 수 있습니다.
‘데이터 이동이 필요한 이유, 모델링부터 시작해야 하는 이유 1부’에서는 데이터 이동의 기본 개념과 대표적인 방법을 살펴보았습니다. 여기서는 전통적인 방식인 ‘데이터베이스 복제’를 대체하고 있는 ‘동적 데이터 이동’에 대해 알아봅니다.
동적 데이터 이동을 가로막는 장애물
수집되는 데이터의 양이 증가하고 새롭고 더 폭넓은 사용례가 드러나면서 동적 데이터 이동이 전통적인 데이터베이스 복제를 대체하고 있습니다. 기업은 데이터를 저장하고 관리하는 새로운 방법을 채택하고 있는데, 이를 위해서는 거의 항상 이종 플랫폼 간에 선별적으로 실시간으로 데이터를 이동해야 합니다. 그러나 여기에는 다양한 장애물이 있습니다.
데이터 이해
데이터를 원활하게 이동하려면 데이터에 대한 이해가 필요합니다. 원시 데이터에서 실행 가능한 정보가 되기까지의 여정에서 데이터 이동은 프로세스의 일부분일 뿐입니다. 데이터를 최대한 활용하려면 데이터를 이해해야 합니다. 여기에는 데이터 유형, 데이터 사용 및 데이터 품질에 대한 이해가 포함됩니다.
1부에서 언급한 모든 데이터 이동 방법은 데이터에 대한 이해를 필요로 합니다. 이런 이해는 대상 시스템의 구조, 데이터에 필요할 수 있는 변환 방식으로 확장됩니다. 그리고 이해의 중심에는 “의사 결정권자는 무엇을 찾고 달성하고자 하는가?”라는 질문이 있습니다.
데이터를 이해하는 가장 효과적인 방법은 데이터를 모델링하는 것입니다. 데이터 모델링과 그에 따르는 원칙은 이동하는 데이터가 비즈니스 이니셔티브를 지원하기 위해 필요한 품질을 갖추도록 보장합니다.
데이터 품질
데이터의 가치가 가진 가능성을 실현하기 위해서는 데이터의 품질이 매우 높아야 합니다. 데이터는 이동 중에도 정확성과 진정성을 유지해야 합니다. 데이터 품질을 낮추는 대표적인 예는 데이터 누락입니다. 빈 필드 하나를 용인하는 데이터베이스도 있지만, 그렇지 않은 데이터베이스도 있습니다.
또 다른 예로, 한 시스템에서 속성으로 사용하는 값이 다른 시스템에서는 데이터 품질 문제를 일으킬 수 있습니다. 결혼 상태를 나타낼 때 미혼은 “1”, 기혼은 “2”와 같이 숫자 값을 사용하는 시스템이 있고, “S”, “M”과 같은 문자를 사용하는 시스템도 있습니다. 이런 시스템의 행을 결합하면 결혼 상태에 대한 값은 작동하지 않게 됩니다(물론 그 전에 데이터 유형 불일치가 먼저 발생할 것입니다).
비즈니스 입출금 계좌와 개인 입출금 계좌를 모두 갖고 있는 은행 고객을 고려해 봅시다. 어느 날 이 고객이 결혼이나 개명, 혹은 불법적인 이유로 개인 계좌의 소유자 이름 변경을 요청합니다. 비즈니스 계정은 변경되지 않은 상태로 유지됩니다. 이제 시스템에는 동일한 계정 소유자가 두 개의 이름으로 존재하게 됩니다. 은행에서는 이 불일치를 어떻게 발견할 수 있을까요? 두 개의 이름을 어떻게 조정해야 할까요? 은행 관점에서는 두 명의 다른 사람이 같은 주소에 살고 있는 것으로 보이겠지만, 그게 사실인가요? 이런 유형의 시나리오는 자주 있으며, 데이터 품질의 필요성을 더욱 잘 보여줍니다.
데이터 구조
서로 다른 데이터베이스 간에 데이터를 이동하려면 대부분 데이터 유형을 변환해야 합니다. 가령 오라클 데이터베이스의 NUMBER 유형 열은 마이크로소프트 SQL 서버에서 TINYINT, INT, BIGINT, DECIMAL, NUMERIC, MONEY, SMALLMONEY 또는 FLOAT을 포함한 여러 유형의 열로 변환할 수 있습니다. 동일한 열을 포스트그레SQL(PostgreSQL)로 이동하면 SMALLINT, INTEGER, BIGINT, DECIMAL, NUMERIC, REAL 또는 DOUBLE PRECISION이 될 수 있습니다. 대상 구조에 더 많은 공간이 필요하다면 스토리지 비용이 증가할 수 있습니다. 각 데이터 유형에 대한 허용 범위는 데이터베이스마다 다를 수 있으며, 이로 인해 정밀도가 손상되거나 데이터 마이그레이션이 아예 실패할 수도 있습니다.
데이터 사용
데이터가 어떻게 사용될지를 이해하는 것도 중요합니다. 예를 들어, 전자상거래 및 뱅킹에서는 법적인 실제 우편 주소를 수집해야 할 수 있지만 CRM 시스템에서는 잠재 고객의 이름과 이메일만으로 충분할 수 있습니다.
데이터 계보
시스템 간 데이터를 이동할 때마다 데이터의 출처, 그리고 이동 과정에서 데이터가 어떻게 변경되거나 변형되었는지에 대한 의문이 생기기 마련입니다. 데이터 계보는 특정 데이터 집합이 기업에 들어와서 이동하고 나가기까지의 경로에 대한 전체 그림을 제공합니다. 이는 시스템 간의 차이를 해결하고 여러 문제, 사소하게는 부동 소수점 반올림과 같은 문제를 처리하는 데 중요한 역할을 합니다.
의미론적 매핑
의미론적 매핑(Semantic mapping), 또는 데이터 정의는 데이터 품질보다 더 까다로운 문제입니다. B2B 혹은 B2C와 같이 서로 다른 유형의 고객을 어떻게 구분할 수 있을까요? 애초에 구분하는 것이 중요할까요? 여러분의 기업이 재판매업체 또는 제조업체라면 상품을 구매하는 주체, 또는 그 상품을 소비/사용하는 주체 중 누가 여러분의 고객일까요? 둘 다 고객일 수도 있을까요?
이 같은 장애물에 걸려 넘어진다면 기업은 벌금을 물거나 인사이트와 트렌드를 놓쳐 고객을 잃을 수 있습니다.
장애물을 극복하는 방법, 데이터 모델링과 데이터 거버넌스
데이터 모델링과 결합된 데이터 거버넌스는 데이터 이동의 장애물을 극복하는 데 필요한 전체적인 맥락을 제공합니다. 데이터 모델링은 데이터 요소와 요소 간의 관계를 시각적으로 표현한 것으로, 정보 시스템과 이를 구동하는 데이터베이스를 설계할 때 비즈니스 및 기술 이해관계자가 협력하는 데 도움이 됩니다. 데이터 거버넌스의 목표는 이런 정보를 공유할 수 있도록 하면서 데이터를 인벤토리화하고 관리 및 보호하는 것입니다.
이 과정이 올바르게 수행되면 “이 데이터는 어떻게 저장되어 있는가?”, “왜 이 데이터를 저장하는가?”, “이 데이터가 무엇을 의미하는가?”와 같은 질문에 대한 답을 찾고 데이터를 이해할 수 있습니다.
데이터 모델링 툴을 사용하면 데이터를 스캔해서 더 정확히 이해할 수 있습니다. 예를 들어, 데이터 모델링 툴은 데이터베이스에서 이름 필드와 주소 필드를 스캔한 다음 해결해야 하는 이상 징후를 알려줍니다. 이름과 주소가 얼마나 중첩되어야 동일인으로 볼 수 있을까요? 각각의 사람이 몇 개의 주소를 가질 수 있을까요? 주소가 올바른 사람과 연결되었는지 어떻게 확신할 수 있을까요?
다른 예를 들면, 이 툴을 사용해 데이터에서 3번째 및 5번째 숫자 뒤에 대시로 구분된 9자리 문자열을 검색할 수도 있습니다. 미국이라면 이 같은 문자열은 보호해야 할 민감한 데이터인 사회보장번호에 해당할 가능성이 높습니다. 이처럼 민감한 정보 문자열이 있는 모든 위치를 찾으려면 어떻게 해야 할까요? 데이터 거버넌스는 데이터 보호를 보장하는 데 도움이 됩니다.
전자 의료 기록 분야에서는 환자 이름, 병력, 처방 기록과 같은 개인 식별 정보(Personally Identifiable Information, PII)가 광범위하게 사용됩니다. PII가 저장된 모든 위치를 찾고 이런 정보를 충분히 보호하고 있는지 확인하려면 어떻게 해야 할까요? HIPAA(Health Insurance Portability and Accountability Act) 위반은 피해야 합니다. 데이터 이동 후 해당 데이터를 누가 다룰지에 따라 민감 데이터를 포함하거나 제외할 수 있습니다. 데이터 거버넌스를 통해 업무 수행에 필요한 데이터에 대해서만 액세스 권한을 부여하고 그 이상은 액세스하지 못하도록 하는 것이 중요한 이유가 여기에 있습니다.
데이터 모델링 및 데이터 거버넌스 툴을 사용하여 데이터를 이해하고 모델링한다면 원활한 데이터 이동을 향해 큰 폭의 진전을 하는 것입니다.
데이터 이동을 시작하는 팁
데이터 구조 검토하기
크로스 플랫폼 데이터 모델링 툴을 사용해 소스 데이터 저장소를 리버스 엔지니어링하십시오. 이렇게 하면 향후 작업 과정에서 문제를 일으킬 수 있는 데이터 유형을 식별하고 대상 시스템과 호환되는 데이터 설명 언어(Data Description Language, DDL)를 생성할 수 있습니다. 또한 고급 데이터 모델링 툴은 시스템 간에 데이터를 복사하도록 설계됩니다.
데이터 사용 현황 파악하기
데이터 요소를 카탈로그화하고 이런 요소의 유효한 사용을 식별하십시오. 이렇게 하면 새로운 데이터 사용이 발생할 때 데이터가 해당 용도에 적합한지 확인할 수 있습니다. 또한 데이터 카탈로그는 복수의 열에 동일한 데이터가 포함된 경우와 같이 사용되지 않거나 불필요한 데이터 요소를 식별하여 데이터 부피를 줄이는 데 기여할 수 있습니다.
데이터 계보 탐색하기
데이터 계보는 기업에서 다루는 데이터의 모든 소스와 대상, 그리고 각 시스템에서 수행한 모든 변환을 파악하는 데 도움이 됩니다. 이를 통해 시스템 간의 데이터 불일치를 찾아서 추적하고 처리할 수 있습니다.
투자자 또는 업계 규제 기관이 회사에서 기록한 매출을 감사하고자 하는 경우를 가정해 보겠습니다. 연간 보고서 또는 Form-10K 수치를 POS 시스템까지 역으로 추적할 수 있나요? 이 과정에서 데이터가 변경 또는 조작되지 않았으며, 재무 정보를 잘못 기재하지 않았음을 입증할 수 있나요? 데이터 계보를 사용하면 데이터가 여러 시스템에 걸쳐 전송된 경우에도 프로세스의 각 단계에서 어떤 부분이 변환되었는지 추적할 수 있습니다.
데이터 품질 고려하기
데이터 분석 및 모델링을 수행하여 데이터 필드에서 누락된 값이나 이상치, 시스템 간의 데이터 정의 불일치와 같은 품질 문제를 찾습니다.
의미론적 매핑 검토하기
데이터를 의미론적으로 매핑하면 중복되거나 중복에 근접한 데이터 엔티티를 찾아낼 수 있습니다. 의미론적 수준에서의 데이터 모델링을 통해 중복을 제거하고 데이터 정의와 관련된 혼란을 제거할 수 있습니다.
결론
데이터 이동은 불가피합니다. 데이터 거버넌스는 필요하고 데이터 모델링은 선택 사항이지만, 사실 모델링도 선택이 아닌 필수입니다. 데이터 모델링은 전체적인 데이터 거버넌스 프로그램의 일부이며, 원활한 데이터 이동을 위해 매우 중요함에도 불구하고 간과되는 경우가 많습니다. 데이터 이동의 예비 단계, 또는 전제 조건으로 데이터를 모델링하면 중요한 데이터를 식별하고 그 데이터를 찾을 위치를 설정하고 데이터가 있어야 할 위치를 파악할 수 있습니다. 결과적으로 이해관계자가 데이터에 근거한 의사 결정을 내리는 데 도움이 되도록 적절한 데이터를 적시에 적절한 위치로 가져오기가 훨씬 더 쉬워집니다.
데이터 관리 및 거버넌스 관리에 어려움을 겪고 계시거나 관련해 궁금한 점이 있으면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다.

https://www.erwin.com/what-is-data-lineage/
Quick Overview
동적 데이터 이동이 전통적인 데이터베이스 복제 방식을 대체하고 있습니다. 동적 데이터 이동에 있어서 고려해야 할 점은 데이터의 이해, 품질, 구조, 사용, 계보뿐 아니라 의미론적 매핑까지 다양합니다. 이런 여러 장애물을 극복하고 문제없이 데이터 이동 프로세스를 완료하기 위해서는 데이터 모델링과 데이터 거버넌스가 필요합니다.
기업이 보유한 데이터의 크기와 가치가 점점 커지고 있습니다. 기업은 데이터를 현재 위치에서 다른 위치로 옮기는 ‘데이터 이동’을 통해 의사 결정권자가 매출로 연결되는 인사이트를 얻을 수 있도록 데이터를 적재적소에 배치할 수 있습니다.
‘데이터 이동이 필요한 이유, 모델링부터 시작해야 하는 이유 1부’에서는 데이터 이동의 기본 개념과 대표적인 방법을 살펴보았습니다. 여기서는 전통적인 방식인 ‘데이터베이스 복제’를 대체하고 있는 ‘동적 데이터 이동’에 대해 알아봅니다.
동적 데이터 이동을 가로막는 장애물
수집되는 데이터의 양이 증가하고 새롭고 더 폭넓은 사용례가 드러나면서 동적 데이터 이동이 전통적인 데이터베이스 복제를 대체하고 있습니다. 기업은 데이터를 저장하고 관리하는 새로운 방법을 채택하고 있는데, 이를 위해서는 거의 항상 이종 플랫폼 간에 선별적으로 실시간으로 데이터를 이동해야 합니다. 그러나 여기에는 다양한 장애물이 있습니다.
데이터 이해
데이터를 원활하게 이동하려면 데이터에 대한 이해가 필요합니다. 원시 데이터에서 실행 가능한 정보가 되기까지의 여정에서 데이터 이동은 프로세스의 일부분일 뿐입니다. 데이터를 최대한 활용하려면 데이터를 이해해야 합니다. 여기에는 데이터 유형, 데이터 사용 및 데이터 품질에 대한 이해가 포함됩니다.
1부에서 언급한 모든 데이터 이동 방법은 데이터에 대한 이해를 필요로 합니다. 이런 이해는 대상 시스템의 구조, 데이터에 필요할 수 있는 변환 방식으로 확장됩니다. 그리고 이해의 중심에는 “의사 결정권자는 무엇을 찾고 달성하고자 하는가?”라는 질문이 있습니다.
데이터를 이해하는 가장 효과적인 방법은 데이터를 모델링하는 것입니다. 데이터 모델링과 그에 따르는 원칙은 이동하는 데이터가 비즈니스 이니셔티브를 지원하기 위해 필요한 품질을 갖추도록 보장합니다.
데이터 품질
데이터의 가치가 가진 가능성을 실현하기 위해서는 데이터의 품질이 매우 높아야 합니다. 데이터는 이동 중에도 정확성과 진정성을 유지해야 합니다. 데이터 품질을 낮추는 대표적인 예는 데이터 누락입니다. 빈 필드 하나를 용인하는 데이터베이스도 있지만, 그렇지 않은 데이터베이스도 있습니다.
또 다른 예로, 한 시스템에서 속성으로 사용하는 값이 다른 시스템에서는 데이터 품질 문제를 일으킬 수 있습니다. 결혼 상태를 나타낼 때 미혼은 “1”, 기혼은 “2”와 같이 숫자 값을 사용하는 시스템이 있고, “S”, “M”과 같은 문자를 사용하는 시스템도 있습니다. 이런 시스템의 행을 결합하면 결혼 상태에 대한 값은 작동하지 않게 됩니다(물론 그 전에 데이터 유형 불일치가 먼저 발생할 것입니다).
비즈니스 입출금 계좌와 개인 입출금 계좌를 모두 갖고 있는 은행 고객을 고려해 봅시다. 어느 날 이 고객이 결혼이나 개명, 혹은 불법적인 이유로 개인 계좌의 소유자 이름 변경을 요청합니다. 비즈니스 계정은 변경되지 않은 상태로 유지됩니다. 이제 시스템에는 동일한 계정 소유자가 두 개의 이름으로 존재하게 됩니다. 은행에서는 이 불일치를 어떻게 발견할 수 있을까요? 두 개의 이름을 어떻게 조정해야 할까요? 은행 관점에서는 두 명의 다른 사람이 같은 주소에 살고 있는 것으로 보이겠지만, 그게 사실인가요? 이런 유형의 시나리오는 자주 있으며, 데이터 품질의 필요성을 더욱 잘 보여줍니다.
데이터 구조
서로 다른 데이터베이스 간에 데이터를 이동하려면 대부분 데이터 유형을 변환해야 합니다. 가령 오라클 데이터베이스의 NUMBER 유형 열은 마이크로소프트 SQL 서버에서 TINYINT, INT, BIGINT, DECIMAL, NUMERIC, MONEY, SMALLMONEY 또는 FLOAT을 포함한 여러 유형의 열로 변환할 수 있습니다. 동일한 열을 포스트그레SQL(PostgreSQL)로 이동하면 SMALLINT, INTEGER, BIGINT, DECIMAL, NUMERIC, REAL 또는 DOUBLE PRECISION이 될 수 있습니다. 대상 구조에 더 많은 공간이 필요하다면 스토리지 비용이 증가할 수 있습니다. 각 데이터 유형에 대한 허용 범위는 데이터베이스마다 다를 수 있으며, 이로 인해 정밀도가 손상되거나 데이터 마이그레이션이 아예 실패할 수도 있습니다.
데이터 사용
데이터가 어떻게 사용될지를 이해하는 것도 중요합니다. 예를 들어, 전자상거래 및 뱅킹에서는 법적인 실제 우편 주소를 수집해야 할 수 있지만 CRM 시스템에서는 잠재 고객의 이름과 이메일만으로 충분할 수 있습니다.
데이터 계보
시스템 간 데이터를 이동할 때마다 데이터의 출처, 그리고 이동 과정에서 데이터가 어떻게 변경되거나 변형되었는지에 대한 의문이 생기기 마련입니다. 데이터 계보는 특정 데이터 집합이 기업에 들어와서 이동하고 나가기까지의 경로에 대한 전체 그림을 제공합니다. 이는 시스템 간의 차이를 해결하고 여러 문제, 사소하게는 부동 소수점 반올림과 같은 문제를 처리하는 데 중요한 역할을 합니다.
의미론적 매핑
의미론적 매핑(Semantic mapping), 또는 데이터 정의는 데이터 품질보다 더 까다로운 문제입니다. B2B 혹은 B2C와 같이 서로 다른 유형의 고객을 어떻게 구분할 수 있을까요? 애초에 구분하는 것이 중요할까요? 여러분의 기업이 재판매업체 또는 제조업체라면 상품을 구매하는 주체, 또는 그 상품을 소비/사용하는 주체 중 누가 여러분의 고객일까요? 둘 다 고객일 수도 있을까요?
이 같은 장애물에 걸려 넘어진다면 기업은 벌금을 물거나 인사이트와 트렌드를 놓쳐 고객을 잃을 수 있습니다.
장애물을 극복하는 방법, 데이터 모델링과 데이터 거버넌스
데이터 모델링과 결합된 데이터 거버넌스는 데이터 이동의 장애물을 극복하는 데 필요한 전체적인 맥락을 제공합니다. 데이터 모델링은 데이터 요소와 요소 간의 관계를 시각적으로 표현한 것으로, 정보 시스템과 이를 구동하는 데이터베이스를 설계할 때 비즈니스 및 기술 이해관계자가 협력하는 데 도움이 됩니다. 데이터 거버넌스의 목표는 이런 정보를 공유할 수 있도록 하면서 데이터를 인벤토리화하고 관리 및 보호하는 것입니다.
이 과정이 올바르게 수행되면 “이 데이터는 어떻게 저장되어 있는가?”, “왜 이 데이터를 저장하는가?”, “이 데이터가 무엇을 의미하는가?”와 같은 질문에 대한 답을 찾고 데이터를 이해할 수 있습니다.
데이터 모델링 툴을 사용하면 데이터를 스캔해서 더 정확히 이해할 수 있습니다. 예를 들어, 데이터 모델링 툴은 데이터베이스에서 이름 필드와 주소 필드를 스캔한 다음 해결해야 하는 이상 징후를 알려줍니다. 이름과 주소가 얼마나 중첩되어야 동일인으로 볼 수 있을까요? 각각의 사람이 몇 개의 주소를 가질 수 있을까요? 주소가 올바른 사람과 연결되었는지 어떻게 확신할 수 있을까요?
다른 예를 들면, 이 툴을 사용해 데이터에서 3번째 및 5번째 숫자 뒤에 대시로 구분된 9자리 문자열을 검색할 수도 있습니다. 미국이라면 이 같은 문자열은 보호해야 할 민감한 데이터인 사회보장번호에 해당할 가능성이 높습니다. 이처럼 민감한 정보 문자열이 있는 모든 위치를 찾으려면 어떻게 해야 할까요? 데이터 거버넌스는 데이터 보호를 보장하는 데 도움이 됩니다.
전자 의료 기록 분야에서는 환자 이름, 병력, 처방 기록과 같은 개인 식별 정보(Personally Identifiable Information, PII)가 광범위하게 사용됩니다. PII가 저장된 모든 위치를 찾고 이런 정보를 충분히 보호하고 있는지 확인하려면 어떻게 해야 할까요? HIPAA(Health Insurance Portability and Accountability Act) 위반은 피해야 합니다. 데이터 이동 후 해당 데이터를 누가 다룰지에 따라 민감 데이터를 포함하거나 제외할 수 있습니다. 데이터 거버넌스를 통해 업무 수행에 필요한 데이터에 대해서만 액세스 권한을 부여하고 그 이상은 액세스하지 못하도록 하는 것이 중요한 이유가 여기에 있습니다.
데이터 모델링 및 데이터 거버넌스 툴을 사용하여 데이터를 이해하고 모델링한다면 원활한 데이터 이동을 향해 큰 폭의 진전을 하는 것입니다.
데이터 이동을 시작하는 팁
데이터 구조 검토하기
크로스 플랫폼 데이터 모델링 툴을 사용해 소스 데이터 저장소를 리버스 엔지니어링하십시오. 이렇게 하면 향후 작업 과정에서 문제를 일으킬 수 있는 데이터 유형을 식별하고 대상 시스템과 호환되는 데이터 설명 언어(Data Description Language, DDL)를 생성할 수 있습니다. 또한 고급 데이터 모델링 툴은 시스템 간에 데이터를 복사하도록 설계됩니다.
데이터 사용 현황 파악하기
데이터 요소를 카탈로그화하고 이런 요소의 유효한 사용을 식별하십시오. 이렇게 하면 새로운 데이터 사용이 발생할 때 데이터가 해당 용도에 적합한지 확인할 수 있습니다. 또한 데이터 카탈로그는 복수의 열에 동일한 데이터가 포함된 경우와 같이 사용되지 않거나 불필요한 데이터 요소를 식별하여 데이터 부피를 줄이는 데 기여할 수 있습니다.
데이터 계보 탐색하기
데이터 계보는 기업에서 다루는 데이터의 모든 소스와 대상, 그리고 각 시스템에서 수행한 모든 변환을 파악하는 데 도움이 됩니다. 이를 통해 시스템 간의 데이터 불일치를 찾아서 추적하고 처리할 수 있습니다.
투자자 또는 업계 규제 기관이 회사에서 기록한 매출을 감사하고자 하는 경우를 가정해 보겠습니다. 연간 보고서 또는 Form-10K 수치를 POS 시스템까지 역으로 추적할 수 있나요? 이 과정에서 데이터가 변경 또는 조작되지 않았으며, 재무 정보를 잘못 기재하지 않았음을 입증할 수 있나요? 데이터 계보를 사용하면 데이터가 여러 시스템에 걸쳐 전송된 경우에도 프로세스의 각 단계에서 어떤 부분이 변환되었는지 추적할 수 있습니다.
데이터 품질 고려하기
데이터 분석 및 모델링을 수행하여 데이터 필드에서 누락된 값이나 이상치, 시스템 간의 데이터 정의 불일치와 같은 품질 문제를 찾습니다.
의미론적 매핑 검토하기
데이터를 의미론적으로 매핑하면 중복되거나 중복에 근접한 데이터 엔티티를 찾아낼 수 있습니다. 의미론적 수준에서의 데이터 모델링을 통해 중복을 제거하고 데이터 정의와 관련된 혼란을 제거할 수 있습니다.
결론
데이터 이동은 불가피합니다. 데이터 거버넌스는 필요하고 데이터 모델링은 선택 사항이지만, 사실 모델링도 선택이 아닌 필수입니다. 데이터 모델링은 전체적인 데이터 거버넌스 프로그램의 일부이며, 원활한 데이터 이동을 위해 매우 중요함에도 불구하고 간과되는 경우가 많습니다. 데이터 이동의 예비 단계, 또는 전제 조건으로 데이터를 모델링하면 중요한 데이터를 식별하고 그 데이터를 찾을 위치를 설정하고 데이터가 있어야 할 위치를 파악할 수 있습니다. 결과적으로 이해관계자가 데이터에 근거한 의사 결정을 내리는 데 도움이 되도록 적절한 데이터를 적시에 적절한 위치로 가져오기가 훨씬 더 쉬워집니다.
데이터 관리 및 거버넌스 관리에 어려움을 겪고 계시거나 관련해 궁금한 점이 있으면 언제든 퀘스트소프트웨어코리아로 문의주시기 바랍니다.
https://www.erwin.com/what-is-data-lineage/