1. Overview

Data/DataLake 2018/03/08 18:01 용비

대부분의 회사에서는 Enterprise Data Warehouse(이하 EDW) 중요한 비즈니스 데이터를 저장하고 있습니다. EDW  

Customer Relationship Management(CRM:고객관계관리), 재고, 판매 거래 시스템과 같은 기업용 시스템으로부터 비즈니스의 정화(essence of business) 수집하기 위해 고안되었습니다.

그리고 인사이트(insight) 얻거나 데이터를 기반으로 중요한 사업적 의사결정을 하기 위해 분석가들과 사업 의사결정자(business user)들이 이용합니다.

하지만, Web이나 IoT 연결된 디바이스에서 나오는 스트리밍이나 소셜 데이터를 포함하여 새로운 기술들이 훨씬 데이터 볼륨, 높아진 사용자의 기대, 빠른 사업의 글로벌화를 만들고 있습니다.

전통적인 EDW 기술로는 새로운 비즈니스 요구사항들을 만족시킬 없다는 것을 기업들이 깨닫고 있습니다.


결과적으로 많은 기업들이 Apache Hadoop으로 돌아서고 있습니다.


전통적인 EDW에서 한가지 주요 단점은 데이터를 EDW 넣기 위해 필요한 근본적인 extract, transform, load(ETL) 프로세스의 기반인 schema-on-write architecture입니다.(schema-on-write : 데이터를 쓰기 위해 데이터베이스에 미리 schema 생성하는 전통적인 기술) Schema-on-write에서는 데이터를 로딩하기 전에 모델을 설계하고 분석 프레임워크를 연계해야 했습니다. 다시 말하면, 데이터를 어떻게 사용할 것인지를 사전에 파악해야 했습니다.


이에 대응하여 기업들은 타협안을 찾았습니다. 전통적인 EDW에서 필요한 첫번째 데이터 변환없이 데이터를 추출하여 Hadoop 기반 저장소에 데이터를 저장했습니다. 무엇보다도 Hadoop 가장 좋은 점은 분석이 필요할 데이터를 데이터베이스로 내리면 된다는 것입니다. 모든 프레임워크는 사전에 요구되는 작업이 거의 없이 즉석에서 만들 있습니다.


기업들은 이제 Data Lake 전환하고 있습니다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/799

트랙백 주소 :: http://www.yongbi.net/trackback/799

트랙백 RSS :: http://www.yongbi.net/rss/trackback/799

댓글을 달아 주세요

댓글 RSS 주소 : http://www.yongbi.net/rss/comment/799
[로그인][오픈아이디란?]
오픈아이디로만 댓글을 남길 수 있습니다