Data Lake는 원천이 어디인지, 어떤 형태의 데이터인지 상관없이 모든 데이터를 저장할 수 있는 중앙 저장소입니다. 일반적으로 Hadoop을 이용하여 구축됩니다. 정형/비정형 데이터가 저장될 수 있습니다. 또한 값을 빠르게 추출하고 조직의 의사결정을 위한 중요 정보화하는데 다양한 스토리지와 프로세스 툴-일반적으로 Hadoop Family에서 확장된 툴-을 사용할 수 있습니다.
특히, 모든 데이터를 저장할 수 있기 때문에 조직이 모바일, 클라우드 기반 어플리케이션, IoT로 전환하는 경우, 전통적인 EDW에서는 한계가 있는 data integration에 새롭고 강력하게 접근할 수 있습니다.
Data Lake는 다음 몇 가지 장점이 있습니다.
- 값을 도출할 수 있는 데이터 종류는 무한대 : CRM부터 소셜미디어 포스트까지 모든 타입의 정형/비정형데이터를 Data Lake에 저장할 수 있습니다.
- 모든 솔직한 대답을 가지고 있을 필요 없음 : 원본데이터(raw data)가 저장되어 있기 때문에 이해력이나 통찰력이 증가하는 대로 개선할 수 있습니다.
- 데이터 쿼리하는 방법에 제한이 없음 : 데이터가 의미하는 바에 대한 통찰력을 얻기 위해 다양한 툴을 사용할 수 있습니다.
- 더 이상 Silo로 만들지 않아도 됨 : 조직에 상관없이 하나의 통일된 데이터 뷰로 접근할 수 있습니다.
EDW와 Data Lake 사이에는 큰 차이가 있습니다. EDW는 다양한 기업용 어플리케이션으로부터 데이터를 입력 받습니다.
근본적으로 각 어플리케이션의 데이터는 각자 schema를 가지고 있습니다. 따라서 EDW에서 먼저 정의한 schema에 맞게 데이터를 변환해야 합니다.
일정 품질과 엔터프라이즈 데이터 모델에 맞게 조정된 데이터만 수집하도록 디자인되었기 때문에 EDW는 제한된 질문에만 응답할 수 있습니다. 그러나 그것은 전반적인 비즈니스에만 사용하기에 매우 적합합니다. 그러나 Data Lake는 원본 형태로 데이터를 입력 받습니다. 엔터프라이즈 스키마 구조에 맞추기 위해서 프로세스를 수행하지 않아도 됩니다. 수집된 데이터 구조는 Data Lake로 입력하고, 데이터를 읽을 때 밝혀질 때까지 알려지지 않습니다.
Data Lake의 가장 큰 장점은 유연함(flexibility)입니다. 데이터가 원본 형태 그대로 남아 있기 때문에 분석하는 데 훨씬 더 크고 시기적절한 데이터 스트림을 이용할 수 있습니다.
다음 표에서는 EDW와 Data Lake의 주요 차이점에 대해 정리했습니다.
Attribute(속성) |
EDW |
Data Lake |
Schema |
Schema-on-write |
Schema-on-read |
Scale |
적절한 비용에 맞는 큰 용량으로 볼륨 확장 |
저비용 대용량 볼륨 확장 |
Access |
표준화된 접속 |
SQL과 유사한 시스템이나 프로그램을 통한 접속 |
Methods |
SQL과 BI툴 |
개발자들이 개발하거나 다른 방법들을 제공 |
Workload |
배치 처리 및 Interactive analysis를 수행하는 수천 명의 동시 사용자들 지원 |
배치 처리와 EDW보다 개선된 사용자를 위한 Interactive query 지원 |
Data |
Cleansed |
Raw |
Complexity |
Complex Integration(통합) |
Complex Processing(처리) |
Cos/Efficiency |
효율적인 CPU/IO 사용 |
저비용으로 효율적인 스토리지와 프로세싱 용량 사용 |
Benefits |
|
|
댓글을 달아 주세요
댓글 RSS 주소 : http://www.yongbi.net/rss/comment/800