'2018/04'에 해당되는 글 7건

  1. 2018/04/25 용비 1-3. How to Deploy a Data Lake Management Platform
  2. 2018/04/24 용비 1-2-4. Deploy a Data Lake Management Platform
  3. 2018/04/24 용비 1-2-3. Write Custom Scripts
  4. 2018/04/24 용비 1-2-2. Adapt Existing Legacy Tools
  5. 2018/04/24 용비 1-2-1. Address the Challenge Later

(Data Lake 관리 플랫폼 배포 방법)


책에서는 네번째 방법인 Data Lake 관리 플랫폼 배포에 초점을 맞추고 있습니다. 우선, Data Lake Data Lake 동작 방법에 대해서 정의합니다.


그런 다음, Data Lake 구축에 대한 Best Practice(모범 사례) 설명하기 위해 Zaloni 설계한 Reference Architecture(참조 아키텍처) 제공합니다. 또한, Data Lake 구축하는 기업에서 직면하는 어려움들에 대해서도 이야기할 것입니다.


책의 가장 중요한 챕터에서는 Data Lake 관리와 거버넌스에 대한 통합된 접근이 필수적인지, 엔터프라이즈급 Data Lake 효율적으로 관리하는데 필요한 솔루션에 대해서 설명할 것입니다. 그리고 Data Lake에서 데이터를 처리하는 Best Practice 대해 심도 있게 다룰 것입니다. 마지막으로, Data Lake 미래는 무엇인지를 살펴봅니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/809

(Data Lake 관리 플랫폼 배포)


네번째 옵션은 대용량의 다양한 데이터 세트를 Hadoop으로 취합하는 문제를 해결하기 위한 목적으로 만들어진 솔루션을 사용하는 것입니다. 이러한 솔루션은 데이터를 카탈로그화 하고, 지속적으로 데이터 품질을 보장하고 워크플로우를 관리하는 프로세스를 지원합니다. 관리된 데이터 수집에서부터 추출까지 전체 데이터 플로우 상에 관리와 거버넌스 프레임워크를 제공합니다. 이러한 접근 방법은 문제를 해결하는 최적의 솔루션으로 자리매김하고 있습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/808

1-2-3. Write Custom Scripts

Data/DataLake 2018/04/24 17:47 용비

(사용자 스크립트 작성)


세번째 옵션은 데이터 거버넌스와 관리에 대한 요구사항을 만족시키는 프로세스, 어플리케이션, 품질 검사 데이터 변환을 연결하는 사용자 지정 스크립트를 사용하여 워크플로우를 만드는 것입니다.


Data Lake 거버넌스와 관리를 추가하는 현재 일반적으로 널리 선택하고 있습니다. 불행하게도 또한 옵션은 가장 안정적이지 못합니다. 특별한 관리나 거버넌스 동작, 변환을 수행하도록 설계된 오픈소스 툴이나 기능을 발견하고 활용하기 위해서 Hadoop 오픈소스 커뮤니티에 깊은 조예가 있는 굉장히 숙련된 분석가가 필요합니다. 그리고 분석가가 모든 조각들을 서로 연결하는 스크립트를 작성해야 합니다. 만약 그렇게 숙련된 인력을 찾을 있다면, 아마도 이것이 가장 저렴한 경로일 것입니다.


그러나, 프로세스는 단지 Data Lake에만 의존할 시간과 비용이 많이 듭니다. 아무튼, 지속적으로 사용자 지정 스크립트를 업데이트하고 재작성해야 합니다. 많은 데이터 소스들이 Data Lake 통합되고, 많은 목적에 맞는 데이터가 발견됨에 따라서, 복잡한 코드와 워크플로우를 지속적으로 수정해야 합니다. 숙련된 인력이 회사를 들고 남에 따라 소중한 지식은 시간이 지남에 따라 없어집니다. 옵션은 오랜 시간 동안 사용할 수는 없습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/807

(기존의 레거시 도구를 수정하기)


두번째 방법은 EDW용으로 설계된 어플리케이션과 프로세스를 활용하는 것입니다. Informatica, IBM InfoSphere DataStage, AB Initio 같은 소프트웨어 툴들은 변환을 수행하기 위해 필요한 ETL Grid 모든 프로세스인, EDW 깨끗한 데이터를 적재할 사용했던 것과 동일한 ETL 프로세스를 수행할 있습니다. Data Lake 데이터를 적재할 소프트웨어들을 사용할 있습니다.


그러나, 이러한 방법은 비용이 많은 드는 경향이 있습니다. 또한, 단지 엔터프라이즈급 Data Lake 필요한 관리와 거버넌스 기능들 일부만 처리합니다. 또다른 주요 단점은 ETL Hadoop Cluster 외부에서 일어나기 때문에 쿼리에 대한 데이터가 외부로 이동해야 하므로 동작이 느려지고, 비용이 추가된다는 것입니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/806

(문제는 나중에 다룸)


첫번째 옵션은 이슈를 무시하고, Hadoop 자유롭게 데이터를 로딩하는 많은 조직에서 선택합니다. 나중에 데이터에서 insight(통찰력) 발견할 필요가 있을 , 당면한 문제에 관련된 데이터를 정리하는 툴을 찾으려고 합니다.


하지만, 여기에는 실제적인 리스크가 있습니다.


우선 첫째로, 가장 지능적인 추론엔진조차도 Data Lake 만들 있는 엄청난 양의 데이터를 가지고 시작해야 합니다. 이것은 필연적으로 일부 데이터를 무시해야 함을 의미합니다. 따라서 Data Lake 일부가 정체되고 고립될 있으며, 가장 똘똘한 자동화 도구나 데이터 분석가일지라도 어디서부터 시작해야 하는지 알지 못하는, 거의 맥락이나 구조를 가지고 있지 않은 데이터를 포함할 있는 위험이 있습니다. 데이터 품질이 나빠지고, 동일한 Hadoop Cluster에서 동일한 질문에 서로 다른 답을 얻게 되는 상황에 처하게 됩니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/805