Apache Spark는 MapReduce를 확장하고 일반화시켜서 이 분야에 가장 유용한 툴 중에 하나로 빠르게 자리매김했다.
Spark는 다음 3가지 주요 이점을 제공한다.
첫째, 사용하기 쉽다. High-Level API를 통해 LapTop에서 계산하고자 하는 컨텐츠에 대한 Application을 개발할 수 있다.
둘째, Spark는 빠르다. 복잡한 알고리즘을 적용하여 Interactive한 작업을 빠르게 수행할 수 있다.
셋째, Spark는 범용 엔진이다. 여러 가지 형태의 계산 (SQL, Text Processing, Machine Learning, Graph Processing)을 수행할 수 있다.
이러한 특징들로 인해 Big Data를 배우는 시작점으로 Spark를 선택한 것은 탁월한 선택이다. 이 책을 통해서 Spark를 다운로드 및 실행, Interactive하게 API를 사용하는 방법, 수행 가능한 Operation과 분산처리 등에 대해서 상세하게 배울 것이다.
마지막으로 Spark는 라이브러리를 추가할 수 있다. 그리고 Spark에서 제공하는 SQL, Machine Learning, Streaming Processing, Graph Analytics 라이브러리를 사용하는 방법을 배울 것이다.
이 책은 Data Scientists and Engineer들을 대상으로 한다. 그 이유는 Spark를 이용하면 그들이 풀 수 있는 문제의 범위를 확장하여 가장 많은 유익을 얻을 수 있기 때문이다.
Data
Scientist들은 통계학적 지식을 기반으로 Spark를 이용하면 하나의 Machine에 적합한 문제를 넘어설 수 있다. Engineer들은 Spark를 이용하여 어떻게 범용 분산 프로그램을 작성하여 어플리케이션을 동작할 수 있는지 배울 수 있다.
Engineer와 Data
Scientist는 이 책을 통해 서로 다른 내용들을 배우지만, 그들의 분야에서 Spark를 이용하여 커다란 분산 데이터 관련된 문제를 해결할 수 있다.
Data Scientist는 의문점에 대한 답이나 Data에서 model을 만드는 것이 관심이 있다. 그들은 종종 통계학적, 수학적 배경을 갖고 있다. 그리고 Python이나 R, SQL과 같은 툴들을 사용한다.
이 책에서는 Spark에서 제공하는 Machine Learning이나
advanced analytics 라이브러리의 overview뿐만 아니라 Python이나 SQL 예제들을 포함시켰다.
만약, 여러분이 Data Scientist라면 이 책을 읽고 나서 커다란 규모의 문제를 더 빠르게 해결하고자 할 때 동일한 접근방법을 적용할 수 있을 것이다.
만약 당신이 Engineer라면 이 책을 통해서 Spark Cluster를 구성하는 방법, Spark Shell 사용하는 방법, 병렬 연산 처리를 위한 Spark 어플리케이션 작성하는 방법을 배울 것이다. Hadoop에 익숙하다면, HDFS와 어떻게 상호연동하는지, Cluster를 어떻게 관리하는지에 대해서 더 쉽게 시작할 수 있다. 하지만, 여기서는 Hadoop에 대해서는 개념적인 내용만 다룰 것이다.
이 책에 있는 모든 예제 코드는 GitHub에 있다.
예제코드는 Java, Python,
Scala로 짜여져 있다.
댓글을 달아 주세요
댓글 RSS 주소 : http://www.yongbi.net/rss/comment/647