01. Preface

Spark 2015/01/28 16:06 용비
Parallel Data Analysis (병렬 데이터 분석)는 지속적으로 증가해 왔고, 각 분야의 전문가들은 이 분야에 더 쉽게 이용할 수 있는 툴을 찾고 있었다.
Apache Spark는 MapReduce를 확장하고 일반화시켜서 이 분야에 가장 유용한 툴 중에 하나로 빠르게 자리매김했다.

Spark는 다음 3가지 주요 이점을 제공한다.

첫째, 사용하기 쉽다. High-Level API를 통해 LapTop에서 계산하고자 하는 컨텐츠에 대한 Application을 개발할 수 있다.

둘째, Spark는 빠르다. 복잡한 알고리즘을 적용하여 Interactive한 작업을 빠르게 수행할 수 있다.

셋째, Spark는 범용 엔진이다. 여러 가지 형태의 계산 (SQL, Text Processing, Machine Learning, Graph Processing)을 수행할 수 있다.

이러한 특징들로 인해 Big Data를 배우는 시작점으로 Spark를 선택한 것은 탁월한 선택이다. 이 책을 통해서 Spark를 다운로드 및 실행, Interactive하게 API를 사용하는 방법, 수행 가능한 Operation과 분산처리 등에 대해서 상세하게 배울 것이다.

마지막으로 Spark는 라이브러리를 추가할 수 있다. 그리고 Spark에서 제공하는 SQL, Machine Learning, Streaming Processing, Graph Analytics 라이브러리를 사용하는 방법을 배울 것이다.

책은 Data Scientists and Engineer들을 대상으로 한다. 그 이유는 Spark 이용하면 그들이 있는 문제의 범위를 확장하여 가장 많은 유익을 얻을 있기 때문이다.

Data Scientist들 통계학적 지식을 기반으로 Spark를 이용하면 하나의 Machine 적합한 문제를 넘어설  있다. Engineer들은 Spark 이용하여 어떻게 범용 분산 프로그램을 작성하여 어플리케이션을 동작할 있는지 배울 있다.

Engineer Data Scientist 책을 통해 서로 다른 내용들 배우지만, 그들의 분야에서 Spark 이용하여 커다란 분산 데이터 관련된 문제를 해결할 있다.

Data Scientist 의문점에 대한 답이나 Data에서 model 만드는 것이 관심이 있다. 그들은 종종 통계학적, 수학적 배경을 갖고 있다. 그리고 Python이나 R, SQL 같은 툴들을 사용한다.
책에서는 Spark에서 제공하는 Machine Learning이나 advanced analytics 라이브러리의 overview뿐만 아니라 Python이나 SQL 예제들 포함시켰다.
만약, 여러분이 Data Scientist라면 책을 읽고 나서 커다란 규모의 문제를 더 빠르게 해결하고자 할 동일한 접근방법을 적용할 있을 것이다.

만약 당신이 Engineer라면 책을 통해서 Spark Cluster 구성하는 방법, Spark Shell 사용하는 방법, 병렬 연산 처리를 위한 Spark 어플리케이션 작성하는 방법을 배울 것이다. Hadoop 익숙하다면, HDFS 어떻게 상호연동하는지, Cluster 어떻게 관리하는지에 대해서 더 쉽게 시작할 수 있다. 하지만, 여기서는 Hadoop에 대해서는 개념적인 내용만 다룰 것이다.

책에 있는 모든 예제 코드는 GitHub 있다.
예제코드는 Java, Python, Scala 짜여져 있다.
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/647

00. Start

Spark 2015/01/28 14:43 용비
오늘날은 빅데이터가 대세다.
빅데이터에서 가장 필요한 기능은 많은 데이터가 아니라 데이터를 분석할 수 있는 기술이다.
그리고 분석된 내용을 이용하여 미래를 예측하고, 분석된 내용간의 상관관계를 규명하고,
의미있는 새로운 데이터를 뽑아내는 것이다.

누군가는 데이터 마이닝 영역이 아닌가 하는 이야기를 할지도 모른다.

하지만, 지금부터 정리하고자 하는 내용은 데이터에 대한 이야기가 아니다.
데이터를 분석하는 오픈소스에 대해서 정리하고자 한다.

세상의 트렌드가 빅데이터로 흐르고 있는 만큼, 빅데이터를 분석하고자 하는 요구에 발맞추고자
수많은 오픈소스들이 생겨났다.

기존 오픈소스의 단점을 메우기 위하여 시작된 오픈소스도 있고,
시장의 요구사항에 따라 새롭게 시작된 오픈소스도 있다.

앞으로는 이러한 오픈소스들 중에 몇가지를 간추려서
해당 오픈소스에 대해 정리한 책 내용을 발췌, 압축하여 정리하고자 한다.

그 첫번째가 아파치 오픈소스 프로젝트 중에 하나인 Spark이다.

자, 이제 Spark에 대해서 초보자를 위한 가이드로 나온 책인 Learning Spark를 시작해보자.
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/646

The Fact

Daily Memo 2015/01/27 16:11 용비
우리는 살아가면서 많은 사건 사고들을 겪고, 그때마다 선택의 순간을 지나게 된다.
아마도, 누구나 자신에게 닥친 그 순간을 해결하기 위해서 나름 선택을 하게 될 것이다.
그러나 그 선택이 과연 최선의 선택이었나 하는 것을 논하는 것은 또 다른 문제다.

최선의 선택. 그것을 하기 위해서는 필요한 능력이 있다. 갖추어야할 조건이 있다.

'머리는 차갑게, 가슴은 뜨겁게'라는 우리가 흔히 하는 말처럼,
주변 상황에 대한 냉정하고도 객관적이고 논리적인 견해와,
내가 할 수 있는 최고의 행동에 대해 주관적인 판단이 합해져야 최선을 다한 선택을 할 수 있을 것이다.

사람은 누구나 자신의 입장에서 판단하고 행동하고 선택할 권리가 있다.
그러나 한가지, 자신의 위치에서 최선의 선택을 취할 수 있는 근거가 되는 책임감이 없다면,
그 선택은 그저 자신만의 안위와 유익함을 위한 이기적인 선택이 되고 말 것이다.

다 같이 행복할 수는 없는 것일까.
그러자면, 자신의 유익함과 불편함을 조금은 감수해야할 것이다.

오늘날 우리 사회를 보면 있는 사실을 사실대로 이야기하지 못하고,
발생한 사건을 사건 그대로 인정하고 받아들이지 못하는 사람들이 너무도 많음을 보게 된다.

모두 자신만의 관점에서 자신의 유익함을 포기하지 못하기 때문에,
결국 그로 인해 수많은 사회적인 갈등들이 생기는 것은 아닐까.

사실을 사실대로 말하고, 사실을 자신의 상황에 맞게 재해석하지 말고 있는 그대로 받아들이고, 책임질 것은 책임지고..
어린 시절 부모님으로부터 받았던 '거짓말 하지 말라, 남에게 피해주지 말라, 책임감을 가지라, 여러운 이웃을 도우라'는 교육은 나만 받았던 것일까...
물론, 부모님께 가르침 받았던 대로 살고 있느냐고 누군가 나에게 묻는다면 나 역시 너무 부끄럽다. 나도 역시 오늘날 살아가는 한 사람에 불과하기에...

하지만, 그렇기에 우리 서로 더 노력하면 좋지 않을까....
언젠가는 사실을 말하고, 받아들이고, 내 일에 내가 책임을 지는.. 그리고 우리 서로 부족한 점을 보듬어 안고 서로 위로하는 그런 세상이 오리라 기대한다면 아직도 나는 꿈나라에 살고 있는 것인가?
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/645