Great Architect & Artist

Parallel Data Analysis (병렬 데이터 분석)는 지속적으로 증가해 왔고, 각 분야의 전문가들은 이 분야에 더 쉽게 이용할 수 있는 툴을 찾고 있었다.

Apache Spark는 MapReduce를 확장하고 일반화시켜서 이 분야에 가장 유용한 툴 중에 하나로 빠르게 자리매김했다.

Spark는 다음 3가지 주요 이점을 제공한다.

첫째, 사용하기 쉽다. High-Level API를 통해 LapTop에서 계산하고자 하는 컨텐츠에 대한 Application을 개발할 수 있다.

둘째, Spark는 빠르다. 복잡한 알고리즘을 적용하여 Interactive한 작업을 빠르게 수행할 수 있다.

셋째, Spark는 범용 엔진이다. 여러 가지 형태의 계산 (SQL, Text Processing, Machine Learning, Graph Processing)을 수행할 수 있다.

이러한 특징들로 인해 Big Data를 배우는 시작점으로 Spark를 선택한 것은 탁월한 선택이다. 이 책을 통해서 Spark를 다운로드 및 실행, Interactive하게 API를 사용하는 방법, 수행 가능한 Operation과 분산처리 등에 대해서 상세하게 배울 것이다.

마지막으로 Spark는 라이브러리를 추가할 수 있다. 그리고 Spark에서 제공하는 SQL, Machine Learning, Streaming Processing, Graph Analytics 라이브러리를 사용하는 방법을 배울 것이다.

이 책은 Data Scientists and Engineer들을 대상으로 한다. 그 이유는 Spark를 이용하면 그들이 풀 수 있는 문제의 범위를 확장하여 가장 많은 유익을 얻을 수 있기 때문이다.

Data Scientist들은 통계학적 지식을 기반으로 Spark를 이용하면 하나의 Machine에 적합한 문제를 넘어설 수 있다. Engineer들은 Spark를 이용하여 어떻게 범용 분산 프로그램을 작성하여 어플리케이션을 동작할 수 있는지 배울 수 있다.

Engineer와 Data Scientist는 이 책을 통해 서로 다른 내용들을 배우지만, 그들의 분야에서 Spark를 이용하여 커다란 분산 데이터 관련된 문제를 해결할 수 있다.

Data Scientist는 의문점에 대한 답이나 Data에서 model을 만드는 것이 관심이 있다. 그들은 종종 통계학적, 수학적 배경을 갖고 있다. 그리고 Python이나 R, SQL과 같은 툴들을 사용한다.

이 책에서는 Spark에서 제공하는 Machine Learning이나 advanced analytics 라이브러리의 overview뿐만 아니라 Python이나 SQL 예제들을 포함시켰다.

만약, 여러분이 Data Scientist라면 이 책을 읽고 나서 커다란 규모의 문제를 더 빠르게 해결하고자 할 때 동일한 접근방법을 적용할 수 있을 것이다.

만약 당신이 Engineer라면 이 책을 통해서 Spark Cluster를 구성하는 방법, Spark Shell 사용하는 방법, 병렬 연산 처리를 위한 Spark 어플리케이션 작성하는 방법을 배울 것이다. Hadoop에 익숙하다면, HDFS와 어떻게 상호연동하는지, Cluster를 어떻게 관리하는지에 대해서 더 쉽게 시작할 수 있다. 하지만, 여기서는 Hadoop에 대해서는 개념적인 내용만 다룰 것이다.

이 책에 있는 모든 예제 코드는 GitHub에 있다.

https://github.com/databricks/learning-spark.

예제코드는 Java, Python, Scala로 짜여져 있다.

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

01. Preface

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/647

트랙백 주소 :: http://www.yongbi.net/trackback/647

트랙백 RSS :: http://www.yongbi.net/rss/trackback/647

댓글을 달아 주세요

블로거

카테고리

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

달력