전통적인 EDW 단점


전통적인 EDW schema-on-write 주요 단점 하나는 데이터를 준비하기 위해 많은 시간과 비용이 들어간다는 것입니다.  주요 EDW 프로젝트를 위해서는 값비싼 데이터 모델링이 필요합니다. 많은 조직이 표준을 만족시키고 심사숙고하는 표준화위원회에 투자하고, 작업을 완료하여 손을 놓기 까지 수개월이나 수년이 걸리기도 합니다.

위원회는 많은 선행작업을 해야 합니다. 우선 해결하고자 하는 문제들에 대한 윤곽을 그려야 합니다. , 문제를 해결하기 위해 데이터에 필요한 질문이 무엇인지 결정해야 합니다. 그것으로부터 질문을 지원할 있는 데이터베이스 스키마를 설계합니다. 한번 스키마 설계가 끝나고 나면, 새로운 데이터 소스에서 가져오는 것이 너무 어렵기 때문에 위원회는 어떤 정보가 포함되고, 어떤 정보가 빠져야 하는지 결정하는데 굉장히 많은 시간을 보냅니다. 위원회가 특정 쟁점에 대해서 혹은 개월을 보내는 것은 드문 일이 아닙니다.


이러한 접근 방법에서는 비즈니스 분석가와 데이터 과학자는 데이터에 대해 즉각적인 질문을 없습니다. 예정보다 빨리 가설을 세워야 하고, 데이터 구조를 만들고, 이러한 가설들을 테스트하여 분석해야 합니다. 유감스럽게도 단지 분석 결과들이 데이터를 반환하도록 설계되었다는 것입니다. 이러한 이슈는 원래의 가설이 맞다면 특별히 중요하지 않습니다. 하지만, 가설이 잘못되었을 경우에는 어떨까요? 단지 끊임없이 이동하는 비즈니스 환경에서는 실용적이지 않은 가정에 맞추고 가장 숙련된 비즈니스 종사자도 놀라게 하는 폐루프 시스템(closed-loop system) 만들었을 뿐입니다.


Data Lake 이러한 모든 문제를 해결합니다. 데이터 모델링이나 표준화 없이 정형/비정형 데이터를 쉽게 저장할 있습니다. 기존 데이터베이스의 정형 데이터는 대부분 자동화된 프로세스로 Data Lake 행에 배치됩니다. 분석가는 할당하기 위하여 일반적으로 원래 정보에서 가져온 태그 태그 그룹을 선택합니다. 같은 데이터 조각에 여러 태그를 붙일 있습니다. 또한 태그들은 언제든지 변경되거나 추가될 있습니다. 저장할 스키마가 사전에 정의될 필요가 없기 때문에 값비싸고 시간을 소모하는 모델링이 필요하지 않습니다. 

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/801

트랙백 주소 :: http://www.yongbi.net/trackback/801

트랙백 RSS :: http://www.yongbi.net/rss/trackback/801

댓글을 달아 주세요

댓글 RSS 주소 : http://www.yongbi.net/rss/comment/801
[로그인][오픈아이디란?]
오픈아이디로만 댓글을 남길 수 있습니다