'분류 전체보기'에 해당되는 글 648건

  1. 2018/04/24 용비 1-2-3. Write Custom Scripts
  2. 2018/04/24 용비 1-2-2. Adapt Existing Legacy Tools
  3. 2018/04/24 용비 1-2-1. Address the Challenge Later
  4. 2018/04/24 용비 1-2. Data Management and Governance in the Data Lake
  5. 2018/04/20 용비 1-1-3. The Business Case for Data Lakes

1-2-3. Write Custom Scripts

Data/DataLake 2018/04/24 17:47 용비

(사용자 스크립트 작성)


세번째 옵션은 데이터 거버넌스와 관리에 대한 요구사항을 만족시키는 프로세스, 어플리케이션, 품질 검사 데이터 변환을 연결하는 사용자 지정 스크립트를 사용하여 워크플로우를 만드는 것입니다.


Data Lake 거버넌스와 관리를 추가하는 현재 일반적으로 널리 선택하고 있습니다. 불행하게도 또한 옵션은 가장 안정적이지 못합니다. 특별한 관리나 거버넌스 동작, 변환을 수행하도록 설계된 오픈소스 툴이나 기능을 발견하고 활용하기 위해서 Hadoop 오픈소스 커뮤니티에 깊은 조예가 있는 굉장히 숙련된 분석가가 필요합니다. 그리고 분석가가 모든 조각들을 서로 연결하는 스크립트를 작성해야 합니다. 만약 그렇게 숙련된 인력을 찾을 있다면, 아마도 이것이 가장 저렴한 경로일 것입니다.


그러나, 프로세스는 단지 Data Lake에만 의존할 시간과 비용이 많이 듭니다. 아무튼, 지속적으로 사용자 지정 스크립트를 업데이트하고 재작성해야 합니다. 많은 데이터 소스들이 Data Lake 통합되고, 많은 목적에 맞는 데이터가 발견됨에 따라서, 복잡한 코드와 워크플로우를 지속적으로 수정해야 합니다. 숙련된 인력이 회사를 들고 남에 따라 소중한 지식은 시간이 지남에 따라 없어집니다. 옵션은 오랜 시간 동안 사용할 수는 없습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/807

(기존의 레거시 도구를 수정하기)


두번째 방법은 EDW용으로 설계된 어플리케이션과 프로세스를 활용하는 것입니다. Informatica, IBM InfoSphere DataStage, AB Initio 같은 소프트웨어 툴들은 변환을 수행하기 위해 필요한 ETL Grid 모든 프로세스인, EDW 깨끗한 데이터를 적재할 사용했던 것과 동일한 ETL 프로세스를 수행할 있습니다. Data Lake 데이터를 적재할 소프트웨어들을 사용할 있습니다.


그러나, 이러한 방법은 비용이 많은 드는 경향이 있습니다. 또한, 단지 엔터프라이즈급 Data Lake 필요한 관리와 거버넌스 기능들 일부만 처리합니다. 또다른 주요 단점은 ETL Hadoop Cluster 외부에서 일어나기 때문에 쿼리에 대한 데이터가 외부로 이동해야 하므로 동작이 느려지고, 비용이 추가된다는 것입니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/806

(문제는 나중에 다룸)


첫번째 옵션은 이슈를 무시하고, Hadoop 자유롭게 데이터를 로딩하는 많은 조직에서 선택합니다. 나중에 데이터에서 insight(통찰력) 발견할 필요가 있을 , 당면한 문제에 관련된 데이터를 정리하는 툴을 찾으려고 합니다.


하지만, 여기에는 실제적인 리스크가 있습니다.


우선 첫째로, 가장 지능적인 추론엔진조차도 Data Lake 만들 있는 엄청난 양의 데이터를 가지고 시작해야 합니다. 이것은 필연적으로 일부 데이터를 무시해야 함을 의미합니다. 따라서 Data Lake 일부가 정체되고 고립될 있으며, 가장 똘똘한 자동화 도구나 데이터 분석가일지라도 어디서부터 시작해야 하는지 알지 못하는, 거의 맥락이나 구조를 가지고 있지 않은 데이터를 포함할 있는 위험이 있습니다. 데이터 품질이 나빠지고, 동일한 Hadoop Cluster에서 동일한 질문에 서로 다른 답을 얻게 되는 상황에 처하게 됩니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/805

(Data Lake에서의 데이터 관리 거버넌스)


만약 업무 요건 때문에 중요한 업무용(mission-critical) 목적으로 데이터를 사용한다면, 데이터 관리와 거버넌스를 심각하게 고려해야 합니다. 전통적으로, 조직에서는 공식적인 프로세스와 엄격한 접근 통제를 위해서 EDW 사용했기 때문입니다. 하지만, 이미 논의한 것처럼, 증가하는 데이터 볼륨과 다양성은 EDW 수용 용량을 압도합니다.


단순히 Data Dump 수행하기 위해 Hadoop 사용하는 극단적인 경우는 데이터의 중요성 때문에 불가능합니다.


초기에 Hadoop 사용하던 , 조직은 데이터를 어떤 식으로든 관리하지 않고 자주 로딩했습니다. 특히 빠르고 싸기 때문에, 대부분의 경우에 비록 여전히 이렇게 접근하기를 원할지라도 이러한 형태의 data dump 최적의 경우가 아닙니다. 데이터가 표준화되어 있지 않은 경우에는 오류가 용납되지 않을 때나 데이터의 정확도가 굉장히 우선 순위가 높을 , data dump 데이터에서 가치를 이끌어 내고자 하는 노력에 비해 얻는 것이 없을 것입니다.


Data Lake 중간 지점을 제공합니다. Hadoop Data Lake 유연하고, 확장성이 있으며, 비용 효율적입니다. 하지만, 외에도 전통적인 EDW 규제도 가질 있습니다. 단순히 Data Lake 데이터 관리와 거버넌스를 추가하면 됩니다. 한번 이렇게 접근하기로 결정하면, 수행에 있어서는 다음 4가지 옵션이 있습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/804

(Data Lakes 비즈니스 사례)


EDW 많은 조직에서 복잡한 분석, 보고, 운영을 수행하기 위한 주요 메커니즘이었습니다. 하지만, EDW 거대한 데이터 볼륨과 광범위한 데이터의 다양성이 표준이 되는 빅데이터 시대에 너무 까다로워서 작업하기 어렵습니다. EDW 데이터 모델을 변경하는 것은 어려운 일이고, 필드간 통합 매핑은 경직되어 있습니다. 또한, EDW 비쌉니다.


아마도 중요한 것은, 대부분의 EDW 데이터를 다루고, 강화하기 위해서 비즈니스 사용자들이 IT 의존하는 것을 크게 요구한다는 것입니다. 왜냐하면 유연하지 못한 설계, 복잡한 시스템, EDW상의 Human Error 대해 용납이 되지 않는 환경이기 때문입니다.


Data Lake 이러한 모든 문제들을 해결합니다. 결과적으로 거의 모든 산업에서 잠재적인 data lake 사용 사례를 가지고 있습니다. 예를 들면, 조직은 나은 데이터 가시성을 얻기 위해서, 데이터의 Silo 제거하고, 고객에 대한 360 뷰를 포착하기 위해 data lake 사용할 있습니다. 끝으로, data lake 통해서 조직은 산업 전반에 걸쳐 빅데이터의 잠재력을 발휘할 있습니다.


Freedom from the rigidity of a single data model

(단일 데이터 모델의 엄격함으로부터의 자유함)


데이터는 구조적인 경우 뿐만 아니라, 구조적일 수도 있기 때문에 블로그 포스팅부터 상품 리뷰까지 모든 것을 저장할 있습니다. 또한, data lake 저장된 데이터는 일관성을 유지할 필요가 없습니다. 예를 들면, 데이터를 제공하는 사람에 따라서 동일한 유형의 정보를 굉장히 다른 데이터 형태로 받을 있습니다. 이것은 EDW에서는 문제가 있습니다. 그러나 data lake에서는 서로 다른 데이터 셋트 사이의 통합 포인트 정의에 대한 스키마 걱정 없이 모든 종류의 데이터를 하나의 저장소에 넣을 있습니다.


Ability to handle streaming data

(스트리밍 데이터 처리 능력)


오늘날 데이터 세계는 스트리밍 세계입니다. 스트리밍은 IoT 센서 데이터나 주식 시장 데이터와 같은 드문 경우에서부터 소셜 미디어의 매우 일상적인 데이터까지 발전해 왔습니다.


Fitting the task to the tool

(작업을 도구에 맞추는 )


EDW 데이터를 저장할 , 특정 종류의 분석 업무를 수행할 있습니다. 그러나 Spark, MapReduce 다른 새로운 모델을 사용하는 경우에는 EDW에서 분석할 데이터를 준비하는 것이 실제 분석을 수행하는 것보다 많은 시간이 걸릴 있습니다. Data lake에서는 과도한 사전 작업 없이 이러한 새로운 패러다임 도구들을 사용하여 데이터를 효율적으로 처리할 있습니다. Data lake 엄격한 메타데이터 스키마를 적용하지 않기 때문에 적은 단계로 데이터를 통합할 있습니다. 사용자는 Schema-on-read 통해 쿼리 실행 시에 수행되는 쿼리에 사용자 지정 스키마를 적용할 있습니다.


Easier accessibility

( 손쉬운 접근성)


Data lake EDW 괴롭히는 데이터 통합과 접근성 문제를 해결합니다. Big Data Hadoop 인프라를 사용하면, 분석을 위해 보다 데이터 볼륨을 사용할 있고, 나중에 사용하기 위해 아직 미확인 상태로 데이터를 간단히 저장할 있습니다. 단일 엔터프라이즈 차원의 데이터 모델에 대한 monolithic 뷰와는 달리, data lake 실제로 데이터를 사용할 때까지 모델링을 미룰 있으므로 나은 운영 통찰력과 데이터 검색 기능을 가질 있습니다. 이러한 장점은 데이터 볼륨과 다양성, 메타데이터의 풍부함이 증가할수록 커집니다.


Reduced costs

(비용 절감)


규모의 경제 때문에 일부 Hadoop 사용자들은 Hadoop Cluster 인해 테라바이트 1000달러 미만을 지불한다고 주장합니다. 비록 숫자는 다를 있지만, 비즈니스 사용자들은 모든 데이터를 저장하는데 들어가는 비용이 그렇지 비싸지 않기 때문에 나중에 분석하고 검색하기 위해서 모든 데이터 복사본을 Hadoop 간단히 저장할 있음을 이해하고 있습니다.


Scalability

(확장성)


빅데이터는 일반적으로 볼륨, 다양성, 속도 사이의 교차점으로 정의됩니다. EDW 아키텍처의 제한 사항으로 인해 특정 볼륨 이상으로 확장이 어려움은 익히 알려져 있습니다. 데이터 처리 시간이 너무 오래 걸리기 때문에 조직에서 데이터를 최대한 활용하는데 제한이 있습니다. Hadoop 사용하면 페타바이트 크기의 Data Lake 비용 효율적이고 상대적으로 간단히 구축할 있고, 원하는 규모가 무엇이건 유지할 있습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/803