본문 바로가기 주메뉴 바로가기

최신IT소식

빅데이터 분석 실패를 예방하는 6가지 방법

관리자 2017-11-03 조회수 5,874

0814-no.jpg

 

 


빅데이터 분석 실패를 예방하는 6가지 방법


1. 빅데이터 분석 도구를 신중하게 선택하라
기술 실패의 원인은 회사가 달성하려는 목표와 전혀 맞지 않는 제품을 구입해서 시행하기 때문인 경우가 많습니다. 유행에 편승해 “빅데이터”나 “고급 분석”과 같은 말을 제품 설명에 넣는 것은 아무 업체나 할 수 있습니다.

그러나 제품마다 품질과 효과는 물론 주력 분야도 크게 다릅니다. 따라서 기술적 역량이 뛰어난 제품을 선택하더라도 막상 사용자에게 필요한 작업에는 능하지 않을 수도 있습니다.

빅데이터 분석에 거의 예외 없이 적용되는 기본 기능이 있습니다. 예를 들면 데이터 변환과 스토리지 아키텍처 관련 기능입니다.(하둡과 아파치 스파크 등). 그런데 빅데이터 분석에는 여러 가지 틈새 기능도 있습니다. 본인의 기술 전략과 실질적으로 관련된 틈새 기능에 맞는 제품을 구해야 합니다. 이러한 틈새 기능으로는 프로세스 마이닝(process mining), 예측 분석, 실시간 솔루션, 인공지능, 비즈니스 인텔리전스(BI) 대시보드 등을 들 수 있습니다.

빅데이터 분석 제품이나 스토리지 플랫폼에 대한 구매 결정을 내리기 전에 실질적인 비즈니스 요구사항 및 문제점이 무엇인지 파악해야 하며, 그러한 구체적인 사안을 효과적으로 해결할 수 있는 제품을 선택해야 합니다.

예를 들면, 비정형 데이터 분석에는 인공지능을 활용하는 분석 등 인지 빅데이터 제품을 선택하는 것이 좋습니다. 방대한 분량의 데이터를 컴파일하려면 복잡하기 때문입니다. 반면, 정형화되고 표준화된 데이터에는 인지 도구를 사용하지 않는 것이 좋습니다. 그 대신, 보다 합리적인 가격에 실시간으로 고급 인사이트를 생산할 수 있는 분석 제품을 선택하라고 무선통신회사 보다폰(Vodafone)의 빅데이터 글로벌 프로세스 책임자 이스라엘 익스포지토는 조언합니다.

익스포지토는 생산 환경에 사용할 제품을 선택하기에 앞서 최소한 두 가지 제품으로 개념 증명을 실시하는 것이 현명하다고 덧붙입니다. 또한 관련 엔터프라이즈 플랫폼과 인터페이스 가능한 제품을 선택해야 합니다.

2. 사용하기 쉬운 도구인지 확인하라 
빅데이터와 고급 분석은 복잡합니다. 그러나 비즈니스 사용자가 데이터에 접근하여 이해할 목적으로 사용하는 제품은 복잡할 필요가 없습니다.

데이터 발견은 물론 분석과 시각화에 사용할 수 있도록 비즈니스 분석 팀에게 제공되는 도구는 단순하면서도 효과적이어야 합니다.

도메인 이름 등록기관 고대디(GoDaddy)의 엔터프라이즈 데이터를 위한 BI 도구 전도사 샤론 그레이브즈에 따르면, 적절한 조합의 도구를 찾아내는 것이 고대디에게 힘든 일이었다고 합니다. 빠른 시각화를 위해 단순하면서도 심층 분석이 가능할 정도의 성능도 갖추어야 했기 때문입니다. 고대디는 비즈니스 사용자가 적절한 데이터를 손쉽게 찾아낸 후 스스로 시각화를 생성할 수 있는 제품을 찾아낼 수 있었고, 덕분에 분석 팀은 고급 분석 수행에 더 집중할 수 있는 여유를 갖게 되었습니다.

3. 실제 비즈니스 요구사항에 프로젝트와 데이터를 일치시켜라
빅데이터 분석 활동이 실패하는 또 다른 이유는 사실 존재하지 않는 문제를 찾아서 해결하려 들기 때문입니다. 따라서, 해결하려는 비즈니스 과제/요구사항을 적정 분석 문제로 표현해 내야 한다고 정보서비스 제공업체 익스피리언(Experian)의 글로벌 데이터 연구소 최고 과학자 샨지 슝은 강조합니다.

관건은 분석 경험이 풍부한 주제 전문가들을 프로젝트 초기에 투입시켜 데이터 과학자들과 함께 문제를 정의하게 하는 것입니다.

4. 데이터 레이크를 구축하되 대역폭은 아끼지 마라
빅(big)이라는 단어에서 알 수 있듯이 빅데이터는 그 양이 엄청납니다. 과거에는 그렇게 많은 양의 데이터를 정리하고 분석하는 것은 고사하고, 보관할 수 있는 기업도 거의 없었습니다. 그러나 오늘날에는 클라우드에서는 물론 사내 시스템을 통해서 고성능 스토리지 기술과 대규모 병렬 처리 기능이 널리 이용되고 있습니다.

그러나, 스토리지 자체로는 부족합니다. 빅데이터 분석에 제공되는 이질적인 종류의 데이터를 처리할 방법이 필요합니다. 아파치 하둡의 천재성이 여기에서 발휘되었습니다. 방대한 이종 데이터 모음의 스토리지와 매핑을 가능하게 해 주었기 때문입니다. 그러한 저장소는 데이터 레이크(호수, data lake)라고 불립니다.


데이터 레이크가 데이터 쓰레기 하치장이 되어서는 안됩니다. 데이터 흡수, 색인 작업, 정규화를 제대로 계획한 빅데이터 전략을 갖고 데이터 레이크를 만들어야 합니다. 명확히 이해하여 표현한 청사진이 없다면, 대부분의 데이터 집약적 계획은 실패할 수밖에 없습니다.

또한, 대역폭을 충분히 갖추는 것이 중요합니다. 대역폭이 부족하면 다양한 출처의 데이터가 데이터 레이크와 비즈니스 사용자를 향해 움직이는 속도가 충분히 빠르지 않기 때문에 데이터가 쓸모 없어지게 됩니다.

5. 빅데이터의 모든 측면에 보안 설계를 하라
계산 인프라 구성요소의 높은 이질성 덕분에 기업들이 데이터로부터 의미 있는 인사이트를 얻어내는 능력이 가속화되었습니다. 그 대신 단점은 시스템을 관리하고 안전하게 보호하기가 훨씬 더 복잡해졌다는 것입니다. 관련 데이터 양이 방대하고 대부분의 빅데이터 분석 시스템은 임무 수행에 필수적인 점을 감안할 때, 시스템과 데이터를 보호할 수 있는 적절한 예방조치를 취하지 않는 것은 대규모의 문제를 자초하는 것입니다.

회사에서 수집, 보관, 분석, 공유하는 데이터의 많은 부분은 고객 정보이며 그 중에는 개인식별 정보도 있습니다. 이러한 데이터가 엉뚱한 사람의 손에 들어간다면 그 결과는 불 보듯 뻔합니다. 각종 소송으로 인한 금전적 손실을 입게 되고 벌금을 물게 될 가능성도 있으며 브랜드와 평판에 타격을 입고 고객의 불만을 초래합니다.

보안 조치에는 데이터 암호화(가능하다면 언제든지), ID 및 접근 관리, 네트워크 보안 등 기본 엔터프라이즈 도구를 배포하는 것이 포함되어야 합니다. 데이터의 적절한 접근 및 사용에 대한 정책 시행과 훈련 역시 포함되어야 합니다.

6. 데이터 관리와 품질을 최우선시 하라
모든 빅데이터 분석 프로젝트는 양질의 데이터 관리 및 품질을 보장해야 합니다. 그렇지 않으면 실패 확률이 훨씬 큽니다.

정확한 최신 데이터를 적시에 제공할 수 있는 통제 장치를 마련해야 합니다. 고대디는 빅데이터 계획의 일환으로 경보 시스템을 구현해 데이터 업데이트가 실패했거나 늦어지는 경우 경영자에게 통보하고 있습니다. 이와 더불어 주요 측정 지표에 대한 데이터 품질 점검 시스템도 구현해 지표가 기대치를 벗어나는 경우 경보를 발송하고 있습니다.

데이터 품질과 거버넌스 보장에 중요한 부분은 숙련된 데이터 관리 전문가를 채용하는 것입니다. 여기에는 데이터 관리 담당 이사나 이러한 분야를 감독할 다른 임원이 포함된다. 이러한 계획의 전략적 중요성을 감안했을 때, 기업들은 데이터 관리, 거버넌스, 정책보다는 데이터를 소유하는 것이 실질적으로 필요합니다.



[ 본 포스팅의 원문은 “잘하면 대박, 못하면 쪽박” 빅데이터 분석 실패 방지를 위한 6가지 조언 에서 확인하실 수 있습니다. ]


  • 등록된 댓글이 없습니다.