'IT Books'에 해당되는 글 1건

  1. 2015/01/29 용비 (Chapter 1) 02. Unified Stack

(Chapter 1) 02. Unified Stack

Spark 2015/01/29 14:18 용비

1. Spark 이용한 Data Analytics 대한 소개


여기서는 Apache Spark 대해서 간단하게 살펴보고자 한다. Apache Spark 익숙하다면 다음 장으로 건너 뛰어도 된다.


Apache Spark이란?

Apache Spark 빠르고 범용적인 목적으로 디자인된 Cluster Computing Platform이다.


속도측면에서 Spark Interactive Query Streaming Processing 포함하여 다양한 형태의 계산을 효율적으로 수행할 있도록 MapReduce Model 확장했다. 거대한 데이터를 처리하는데 있어서 속도는 중요하다. Spark 연산을 메모리에서 수행하기 때문에 Disk 기반으로 수행하는 MapReduce보다 훨씬 빠르다.


범용성 측면에서 Spark 예전 분산 시스템에서 요구되었던 여러 기능들 - Batch Application, Iterative Algorithm, Interactive Query, Streaming - 모두 수용했다. 하나의 엔진에서 모든 기능들을 지원함으로써 Spark Data Analysis Pipeline Production에서 요구하는 서로 다른 Processing Type 쉽고 싸게 결합할 있다. 그리고 서로 다른 Tool 유지/관리하는 비용을 줄일 있다.


Spark Python이나 Java, Scala, SQL 통해서 쉽게 접근할 있도록 API 제공한다. Hadoop Cluster상에서 Spark 구동할 수도 있고, 어떤 형태의 Hadoop Data Source에도 접근할 있다.


Unified Stack

Spark Project 여러 개의 component 밀접한 관계가 있다. Spark Core "Computational Engine"이다. Spark Core는 많은 worker machine 혹은 computation cluster상의 computational task 이루어진 Scheduling, Distributing, Monitoring Application들을 관리한다.

Spark Core Engine 빠르고 범용적이기 때문에 SQL이나 Machine Learning 같은 강력한 component들을 제공한다.

이런 component들은 Project에서 Spark 라이브러리로 추가되어 밀접하게 연동하도록 디자인 되어 있다.


서로 밀접하게 연관되어 연동하는 것에는 가지 유익한 점이 있다.


첫째, 모든 라이브러리들은 하위 layer에서 개선이 가능하다. 예를 들면 Spark Core Engine Optimization 추가되면, SQL Machine Learning 라이브러리의 성능이 자동적으로 좋아진다.


둘째, 운영비용이 적게 든다. 개별적으로 있을 때는 5~10개의 서버를 운영해야 하지만, 밀접하게 엮여 있는 시스템은 하나만 운영하면 된다. 비용에는 유지, 테스트, 지원 등이 포함된다. 새로운 component Spark 추가될 , 즉시 새로운 component 사용할 있다.


끝으로, 밀접한 연관관계로 엮어 놓은 것의 가장 장점은 서로 다른 처리를 요구하는 기능들을 결합하여 즉시 Application 반영할 있다는 것이다. 예를 들어, Streaming Source로부터 데이터를 받아서 real time으로 데이터를 구분하는 machine learning 이용하여 Spark에서 Application 개발할 있다. 동시에 analyst real time으로 비구조적인 log file로부터 SQL 통해 결과를 조회할 있다. 숙련된 data engineer 거기에 더해 특정 분석을 수행하기 위하여 Python Shell 같은 데이터에 접근할 수도 있다. 다른 사람들은 standalone batch application 통해 데이터 접근이 가능하다. 무엇이건 간에, IT team 하나의 software stack 관리하면 된다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/648