Great Architect & Artist

(사용자 스크립트 작성)

세번째 옵션은 데이터 거버넌스와 관리에 대한 요구사항을 만족시키는 프로세스, 어플리케이션, 품질 검사 및 데이터 변환을 연결하는 사용자 지정 스크립트를 사용하여 워크플로우를 만드는 것입니다.

Data Lake의 거버넌스와 관리를 추가하는 데 현재 일반적으로 널리 선택하고 있습니다. 불행하게도 또한 이 옵션은 가장 안정적이지 못합니다. 특별한 관리나 거버넌스 동작, 변환을 수행하도록 설계된 오픈소스 툴이나 기능을 발견하고 활용하기 위해서 Hadoop과 오픈소스 커뮤니티에 깊은 조예가 있는 굉장히 숙련된 분석가가 필요합니다. 그리고 그 분석가가 모든 조각들을 서로 연결하는 스크립트를 작성해야 합니다. 만약 그렇게 숙련된 인력을 찾을 수 있다면, 아마도 이것이 가장 저렴한 경로일 것입니다.

그러나, 이 프로세스는 단지 Data Lake에만 의존할 때 시간과 비용이 더 많이 듭니다. 아무튼, 지속적으로 사용자 지정 스크립트를 업데이트하고 재작성해야 합니다. 더 많은 데이터 소스들이 Data Lake에 통합되고, 더 많은 목적에 맞는 데이터가 발견됨에 따라서, 복잡한 코드와 워크플로우를 지속적으로 수정해야 합니다. 숙련된 인력이 회사를 들고 남에 따라 소중한 지식은 시간이 지남에 따라 없어집니다. 이 옵션은 오랜 시간 동안 사용할 수는 없습니다.

(기존의 레거시 도구를 수정하기)

두번째 방법은 EDW용으로 설계된 어플리케이션과 프로세스를 활용하는 것입니다. Informatica, IBM InfoSphere DataStage, AB Initio와 같은 소프트웨어 툴들은 변환을 수행하기 위해 필요한 ETL Grid의 모든 프로세스인, EDW로 깨끗한 데이터를 적재할 때 사용했던 것과 동일한 ETL 프로세스를 수행할 수 있습니다. Data Lake로 데이터를 적재할 때 이 소프트웨어들을 사용할 수 있습니다.

그러나, 이러한 방법은 비용이 많은 드는 경향이 있습니다. 또한, 단지 엔터프라이즈급 Data Lake에 필요한 관리와 거버넌스 기능들 중 일부만 처리합니다. 또다른 주요 단점은 ETL이 Hadoop Cluster의 외부에서 일어나기 때문에 각 쿼리에 대한 데이터가 외부로 이동해야 하므로 동작이 느려지고, 비용이 추가된다는 것입니다.

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

1-2-4. Deploy a Data Lake Management Platform

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/808

트랙백 주소 :: http://www.yongbi.net/trackback/808

트랙백 RSS :: http://www.yongbi.net/rss/trackback/808

댓글을 달아 주세요

1-2-3. Write Custom Scripts

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/807

트랙백 주소 :: http://www.yongbi.net/trackback/807

트랙백 RSS :: http://www.yongbi.net/rss/trackback/807

댓글을 달아 주세요

1-2-2. Adapt Existing Legacy Tools

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/806

트랙백 주소 :: http://www.yongbi.net/trackback/806

트랙백 RSS :: http://www.yongbi.net/rss/trackback/806

댓글을 달아 주세요

블로거

카테고리

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

달력