오늘. 2018년 11월 19일.

오랜만에 술먹고 늦게 집에 도착해서 착한 마님께서 준비해 놓으신 헛개나무 진액과 배를 먹으면서,
카카오페이지를 방문해 보니, 작은 누나가 글 하나 포스팅 해 놨습니다.
여러 가지 사정에 의해 4살 때부터 함께 지냈던 조카 딸이 오늘 웨딩 사진을 찍었나 보네요.

포스팅에 여러 장의 웨딩 사진을 올리면서, 우리 누나. 어느 엄마처럼 멘트 하나 남겼습니다.
다음과 같은 내용이었던 것 같습니다.
"우리 딸. 너무 이쁘지만, 왠지 많이 아쉽다.."

그 포스팅에는 '좋아요' 한표, 가족들과 지인들이 남긴 댓글이 16개 정도 달려 있었습니다.

저도 궁금했습니다.
4살 때의 지혜가 20여년이 지나 결혼 사진을 찍을 때의, 단 한번 뿐인, 돌아올 수 없는 시간, 최고의 순간에 찍은 멋진 사진을 보고 싶었습니다. 마구마구 스크롤을 내려가며, '역시. 이쁘게 잘 컸다. 우리 지혜'라는 감탄을 하며 정신없이 보고 있는 와중에....

왠 떡순이(?)께서 웨딩 드레스 차림으로 등장했습니다. 그것도 한 장이 아니라 여러 장의 사진으로, 연달아서....ㅠㅠ
웨딩 사진이고 뭐고, 댓글을 누가 달았는지에 상관없이 당장 스크롤을 맨 밑으로 내려서 새로운 댓글을 하나 달았습니다.

"멋지고 이쁜 사진 보다가 중간에 헉했다. 누나. 주책이야. 누나. 중간에 니가 왜 나타났어? 누나 너는 나랑 같이 나타나야지! 나도 없이 누나 혼자 중간에 떡하니 나타나니 내가 놀랬잖아!"

우리 착한 여동생. 걱정됐나 봅니다. 바로 댓글을 달았네요?

"오빠. 이 댓글 새언니 보면 안 되겠다. 오빠네 또 싸운다."

사랑하는 여동생, 정나윤. 얘가 아직 새언니를 잘 모르네요.

"야. 요즘 니 새언니 너무 쿨해. 이정도는 아무것도 아니야. 니 새언니 너무 쿨해서 니 오빠 요즘 너무 춥다. 아주 그냥."
"오, 그래? 난 잘 모르겠는데~~ㅋㅋㅋ"
"당연히 넌 잘 모르지. 요즘 니 오빠 술 먹고 늦게 들어오는 날에는 '어이구, 오늘도 술 먹고 늦었어? 집에 들어오다가 자빠지지 않았지? 자기 엉덩이는 멀쩡하냐?' 하면서 오빠 엉덩이 두들겨. 너무 맞아서 니 오빠 엉덩이만 튀어 나왔어, 요즘. 갑자기 오늘도 추워질라고 하네. 말리지 마. 나 오늘 내복입고 잔다."

그런데 가만히 보니 제 엉덩이가 생각보다 많이 튀어나오지는 않은 것 같습니다.
내가 아직 마님께 엉덩이를 덜 맞았나....ㅠㅠ
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/811

2. How Data Lakes Work

Data/DataLake 2018/06/01 22:57 용비
(Data Lake 어떻게 동작하는가)

많은 IT조직들은 비록 관련은 있지만, 통합되지 않은 Hadoop 저장되어 있는 엄청난 볼륨의 소형, 중형, 대형 데이터 세트에 압도당합니다. 그러나 통합된 데이터 관리 프레임워크를 올바르게 사용하면, Data Lake 통해서 조직들은 통찰력을 얻고 데이터 세트간의 연관 관계를 발견할  있습니다.

통합 데이터 관리 프레임워크 기반 Data Lake 전통적인 EDW에서 필요한 비용이 많이 들고 번거로운 ETL 데이터 준비 프로세스를 제거해 줍니다. 데이터는 Data Lake 원활히 유입되고, 비즈니스 사용자가 필요로  , 정보의 위치를 찾고 연결하는데 도움이 되는 메타데이터 태그로 관리됩니다. 이러한 접근 방법을 통해서 분석가는  단계마다 IT 관련시키지 않고 IT 리소스를 보존하면서 데이터에서 중요한 가치를 창출하는 중요한 업무를 자유롭게 수행할  있습니다.

오늘날, 모든 IT 부서들에서는 적은 비용으로  많은 일을 하도록 강요당하고 있습니다. 이러한 환경에서  통제되고 관리되는 Data Lake 조직들이 데이터를  효율적으로이용하여 비즈니스 통찰력을 얻고, 올바른 의사 결정을   있도록 도와 줍니다.

Zaloni
 그림 2-1 같이 Data Lake 구축에 대한 Best Practice 구체화하고, 데이터 거버넌스 프레임워크 아래 동작하는 참조 아키텍처를 만들었습니다.

사용자 삽입 이미지
[Figure 2-1] Zaloni's data lake architecture

이 아키텍처의 가장 큰 장점은 온라인 트랜잭션 처리(OLTP)나 운영 데이터 저장 (ODS) 시스템, EDW, 로그나 다른 기계 데이터, 클라우드 서비스를 비롯하여 어디에서나 Data Lake에 데이터가 들어올 수 있다는 것입니다. 이러한 소스 시스템들은 파일 데이터, 데이터베이스 데이터, ETL, 스트리밍 데이터, API를 통해서 들어오는 데이터와 같은 다양한 형식을 포함합니다.

 

데이터는 먼저 일시적인 로딩 존에 로드 됩니다. 여기서는 Hadoop Clouster를 활용하여 MapReduce Spark를 통해 기본적인 데이터 품질 검사가 수행됩니다. 한번 데이터 품질 검사가 수행되고 나면, 데이터는 Raw Data Zone Hadoop에 로드되고, 민감한 데이터는 편집되어 개인 식별 정보(Personal Identifiable Information), 개인 건강 정보(Personal health information), 지불 카드 업계(Payment Card Industry) 정보, 다른 종류의 민감한 데이터나 취약한 데이터를 드러내지 않고 접근할 수 있습니다.

 

데이터 과학자와 비즈니스 분석가들은   Raw Data Zone을 깊이 뒤져서 데이터 집합을 찾습니다. 원하는 경우, 조직에서는 표준 데이터 정리 및 데이터 유효성 검사 방법을 수행하고, Trusted Zone에 데이터를 위치시킬 수 있습니다. 이 신뢰할 수 있는 저장소에는 마스터 데이터와 참조 데이터가 모두 들어 있습니다.

 

마스터 데이터는 정리되고 유효성이 검증된 기본 데이터 집합입니다. 예를 들면, Healthcare 조직에서는 기본 회원 정보(이름, 주소)와 회원의 추가 속성들(생일, 사회보장번호)가 포함된 마스터 데이터 집합을 가지고 있을 수 있습니다. 조직에서는 Change Data Capture(CDC) 메커니즘을 사용하여 이러한 Trusted Zone에 보관된 참조 데이터가 최신 정보인지 확인해야 합니다.

 

한편, 참조 데이터는 보다 복잡한 혼합 데이터 집합에 대한 진실된 단일 소스로 간주됩니다. 예를 들면, Healthcare 조직에서는 회원 데이터에 대한 진실된 단일 소스 데이터를 만들기 위해서 회원 기본 정보와 회원 추가 속성과 같은 마스터 데이터 저장소에 있는 여러 데이터 테이블의 정보들을 병합한 참조 데이터 집합을 가질 수 있습니다. 회원 정보를 필요로 하는 조직에 있는 누구라도 이 참조 데이터에 접근할 수 있고, 이러한 참조 데이터에 의존할 수 있음을 알 수 있습니다.

 

신뢰할 수 있는 영역에서, 데이터는 사용자와 데이터 과학자들의 논쟁, 발견, 탐색 분석을 위해 Discovery Sandbox(검색 샌드박스)로 이동합니다.

 

끝으로, Consumption Zone(소비 영역)이 있습니다. 여기서는 비즈니스 분석가들, 연구원들, 데이터 과학자들이 보고서를 만들고, "what if" 분석을 실행하고, 정보 기반 의사 결정(informed decision-making)을 위한 비즈니스 통찰력을 얻기 위해 Data Lake를 이용하여 데이터를 소비합니다.

 

무엇보다 중요한 것은 이 모든 것들의 밑에 메타데이터와 데이터 품질, 데이터 카탈로그와 보안을 취급하고, 모니터링하고 관리하는 통합 플랫폼이 있어야 합니다. 비록 기업마다 통합 플랫폼을 구조화하는 방법이 다양할 수 있지만, 일반적으로 거버넌스는 솔루션의 일부로 있어야만 합니다.


TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/810

(Data Lake 관리 플랫폼 배포 방법)


책에서는 네번째 방법인 Data Lake 관리 플랫폼 배포에 초점을 맞추고 있습니다. 우선, Data Lake Data Lake 동작 방법에 대해서 정의합니다.


그런 다음, Data Lake 구축에 대한 Best Practice(모범 사례) 설명하기 위해 Zaloni 설계한 Reference Architecture(참조 아키텍처) 제공합니다. 또한, Data Lake 구축하는 기업에서 직면하는 어려움들에 대해서도 이야기할 것입니다.


책의 가장 중요한 챕터에서는 Data Lake 관리와 거버넌스에 대한 통합된 접근이 필수적인지, 엔터프라이즈급 Data Lake 효율적으로 관리하는데 필요한 솔루션에 대해서 설명할 것입니다. 그리고 Data Lake에서 데이터를 처리하는 Best Practice 대해 심도 있게 다룰 것입니다. 마지막으로, Data Lake 미래는 무엇인지를 살펴봅니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/809