(문제는 나중에 다룸)


첫번째 옵션은 이슈를 무시하고, Hadoop 자유롭게 데이터를 로딩하는 많은 조직에서 선택합니다. 나중에 데이터에서 insight(통찰력) 발견할 필요가 있을 , 당면한 문제에 관련된 데이터를 정리하는 툴을 찾으려고 합니다.


하지만, 여기에는 실제적인 리스크가 있습니다.


우선 첫째로, 가장 지능적인 추론엔진조차도 Data Lake 만들 있는 엄청난 양의 데이터를 가지고 시작해야 합니다. 이것은 필연적으로 일부 데이터를 무시해야 함을 의미합니다. 따라서 Data Lake 일부가 정체되고 고립될 있으며, 가장 똘똘한 자동화 도구나 데이터 분석가일지라도 어디서부터 시작해야 하는지 알지 못하는, 거의 맥락이나 구조를 가지고 있지 않은 데이터를 포함할 있는 위험이 있습니다. 데이터 품질이 나빠지고, 동일한 Hadoop Cluster에서 동일한 질문에 서로 다른 답을 얻게 되는 상황에 처하게 됩니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/805

트랙백 주소 :: http://www.yongbi.net/trackback/805

트랙백 RSS :: http://www.yongbi.net/rss/trackback/805

댓글을 달아 주세요

댓글 RSS 주소 : http://www.yongbi.net/rss/comment/805
[로그인][오픈아이디란?]
오픈아이디로만 댓글을 남길 수 있습니다