Great Architect & Artist

(Chapter 1) 04. Spark Streaming

Spark 2015/01/30 15:54 용비

Spark Streaming

Spark Streaming은 live stream data 처리를 위한 Spark component이다. 예를 들어 live stream data는 웹 서버에 의해 만들어지는 log file이나 웹 서비스의 사용자에 의해 post되는 상태 업데이트 정보를 담고 있는 message queue를 의미한다.

Spark Streaming은 Spark Core의 RDD API와 밀접하게 매칭되는 data stream을 다룰 수 있는 API를 제공한다. 프로그래머는 API를 통해 메모리나 디스크에 저장된 데이터나 실시간 데이터를 다루는 프로젝트나 application을 쉽게 개발할 수 있다.

Spark Streaming은 Spark Core에서 제공하는 fault tolerance, throughput, scalability와 동일한 수준으로 제공하도록 설계되어 있다.

TAG Big Data, IT Book, Spark

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/650

(Chapter 1) 03. Spark Core, SQL

Spark 2015/01/30 15:29 용비

Spark Core

Spark Core는 task scheduling, memory management, fault recovery, storage system interacting등을 담당하는 component를 포함하여 Spark의 기본 기능을 제공한다.

또한 Spark Core는 Spark의 main programming abstraction인 RDD (Resilient Distributed Dataset)을 정의한 API의 홈이기도 하다. RDD는 병렬 처리할 수 있는 많은 computing node에 분산되어 있는 아이템들의 집합을 나타낸다.

Spark Core에서는 이런 collection들을 다룰 수 있는 많은 API를 제공한다.

Spark SQL

Spark SQL은 Apache Hive가 SQL을 변형하여 제공하는 Hive Query Language (HiveQL)처럼 SQL을 통해 Spark와 interacting하는 것을 지원한다. Spark SQL은 Spark RDD로 database table을 표현하고, Spark operation으로 SQL query를 변환한다.

Spark에 SQL interface를 제공하는 것을 넘어, Spark SQL은 개발자가 하나의 application안에서 SQL query를 섞어서 Python, Java, Scala로 RDD가 지원하는 데이터 처리 프로그램을 개발할 수 있게 한다.

Spark stack의 나머지 부분에 의해 제공되는 풍부하고 유연한 computing environment의 밀접한 통합은 다른 오픈 소스 data warehouse tool과는 다른 부분이다. Spark SQL은 버전 1.0 이후로 포함되어 있다.

Shark는 Spark SQL보다 먼저 만들어진 UC 버클리 프로젝트이다. Spark SQL의 위에서 동작하도록 포팅되었다. Shark는 Spark가 Apache Hive를 대체하여 동작하도록 추가 기능을 제공한다. 외부 graphing and data exploration tool을 쉽게 연결하도록 하는 JDBC 서버 뿐만 아니라 HiveQL shell을 포함하고 있다.

TAG Big Data, IT Book, Spark

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/649

(Chapter 1) 02. Unified Stack

Spark 2015/01/29 14:18 용비

1장. Spark을 이용한 Data Analytics에 대한 소개

여기서는 Apache Spark에 대해서 간단하게 살펴보고자 한다. Apache Spark에 익숙하다면 다음 장으로 건너 뛰어도 된다.

Apache Spark이란?

Apache Spark은 빠르고 범용적인 목적으로 디자인된 Cluster Computing Platform이다.

속도측면에서 Spark은 Interactive Query나 Streaming Processing을 포함하여 다양한 형태의 계산을 효율적으로 수행할 수 있도록 MapReduce Model을 확장했다. 거대한 데이터를 처리하는데 있어서 속도는 중요하다. Spark는 연산을 메모리에서 수행하기 때문에 Disk 기반으로 수행하는 MapReduce보다 훨씬 더 빠르다.

범용성 측면에서 Spark는 예전 분산 시스템에서 요구되었던 여러 기능들 - Batch Application, Iterative Algorithm, Interactive Query, Streaming - 을 모두 수용했다. 하나의 엔진에서 이 모든 기능들을 지원함으로써 Spark는 Data Analysis Pipeline Production에서 요구하는 서로 다른 Processing Type을 쉽고 싸게 결합할 수 있다. 그리고 서로 다른 Tool을 유지/관리하는 비용을 줄일 수 있다.

Spark는 Python이나 Java, Scala, SQL을 통해서 쉽게 접근할 수 있도록 API를 제공한다. Hadoop Cluster상에서 Spark를 구동할 수도 있고, 어떤 형태의 Hadoop Data Source에도 접근할 수 있다.

Unified Stack

Spark Project는 여러 개의 component와 밀접한 관계가 있다. Spark Core는 "Computational Engine"이다. Spark Core는 많은 worker machine 혹은 computation cluster상의 computational task로 이루어진 Scheduling, Distributing, Monitoring Application들을 관리한다.

Spark의 Core Engine은 빠르고 범용적이기 때문에 SQL이나 Machine Learning과 같은 강력한 component들을 제공한다.

이런 component들은 Project에서 Spark의 라이브러리로 추가되어 밀접하게 연동하도록 디자인 되어 있다.

서로 밀접하게 연관되어 연동하는 것에는 몇 가지 유익한 점이 있다.

첫째, 모든 라이브러리들은 하위 layer에서 개선이 가능하다. 예를 들면 Spark의 Core Engine에 Optimization이 추가되면, SQL과 Machine Learning 라이브러리의 성능이 자동적으로 좋아진다.

둘째, 운영비용이 적게 든다. 개별적으로 있을 때는 5~10개의 서버를 운영해야 하지만, 밀접하게 엮여 있는 시스템은 하나만 운영하면 된다. 이 비용에는 유지, 테스트, 지원 등이 포함된다. 새로운 component가 Spark에 추가될 때, 즉시 새로운 component를 사용할 수 있다.

끝으로, 밀접한 연관관계로 엮어 놓은 것의 가장 큰 장점은 서로 다른 처리를 요구하는 기능들을 결합하여 즉시 Application에 반영할 수 있다는 것이다. 예를 들어, Streaming Source로부터 데이터를 받아서 real time으로 데이터를 구분하는 machine learning을 이용하여 Spark에서 Application을 개발할 수 있다. 동시에 analyst는 real time으로 비구조적인 log file로부터 SQL을 통해 결과를 조회할 수 있다. 더 숙련된 data engineer는 거기에 더해 특정 분석을 수행하기 위하여 Python Shell로 같은 데이터에 접근할 수도 있다. 다른 사람들은 standalone batch application을 통해 데이터 접근이 가능하다. 무엇이건 간에, IT team은 단 하나의 software stack을 관리하면 된다.

TAG Big Data, IT Books, Spark

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/648

◀ 이전페이지 1 ... 76 77 78 79 80 81 82 83 84 ... 216 다음페이지 ▶

블로거

지혜 있는 자는 궁창의 빛과 같이 빛날 것이요 많은 사람을 옳은 데로 돌아오게 한 자는 별과 같이 영원토록 빛나리라 (단 12:3) 용비

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

Chapter 2. Organizing D....

Chapter 1. Layering.

06. Javadoc.

05. Practice.

04. Naming.

달력

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Total : 5488699
Today : 1678
Yesterday : 2537

(Chapter 1) 04. Spark Streaming

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/650

트랙백 주소 :: http://www.yongbi.net/trackback/650

트랙백 RSS :: http://www.yongbi.net/rss/trackback/650

댓글을 달아 주세요

(Chapter 1) 03. Spark Core, SQL

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/649

트랙백 주소 :: http://www.yongbi.net/trackback/649

트랙백 RSS :: http://www.yongbi.net/rss/trackback/649

댓글을 달아 주세요

(Chapter 1) 02. Unified Stack

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/648

트랙백 주소 :: http://www.yongbi.net/trackback/648

트랙백 RSS :: http://www.yongbi.net/rss/trackback/648

댓글을 달아 주세요

블로거

카테고리

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

달력