Spark에 대한 빠른 여행에서 빠뜨린 마지막 조각은 어떻게 standalone program을 사용하느냐는 것이다. Interactive하게 실행하는 것을 제외하고, Spark Java, Scala, Python으로 작성된 Standalone application에도 link될 수 있다. Shell에서 그것을 사용하는 주요 차이점은 직접 SparkContext를 초기화 해주어야 한다는 것이다. 그 이후, API는 동일하게 사용할 수 있다.

 

Spark linking하는 과정은 언어에 따라 다르다. Java Scala에서는 application Maven dependency Apache에 의해publish spark-core artifact를 넣어 주면 된다. 이 글이 쓰여질 시점에 최종 Spark 버전은 1.0.0이고, Maven coordinate는 다음과 같다.

 

groupId = org.apache.spark

artifactId = spark-core_2.10

version = 1.0.0

 

Maven에 익숙하지 않다면, maven public repository library를 등록하여 link할 수 있는 Java 기반 언어에 대한 유명한package management tool이다. 프로젝트를 build하는데 Maven을 사용할 수 있다. 혹은 Maven Repository에 연동할 수 있는 다른 툴-Scala SBT tool이나 Gradle과 같은-을 사용할 수도 있다. Eclipse와 같은 유명한 통합 개발 환경 또한 프로젝트에Maven dependency를 직접 추가할 수 있도록 지원한다.

 

Python에서는 Python Script로 간단하게 application을 작성할 수 있다. 하지만, Spark에 포함된 특별한 bin/spark-submit script를 사용하여 실행해야만 한다.  script Spark Python API function으로 사용할 수 있도록 환경을 설정한다. Script는 다음처럼 간단하게 실행할 수 있다.

 

bin/spark-submit my_script.py

 

(윈도우 시스템에서는 / 대신 \(backslash)를 사용해야 함에 주의!)

(NOTE : 1.0 이전 Spark 버전에서는 Python application을 실행하기 위해서 bin/pyspark my_script.py을 사용하라)

 

Application Spark link하기 위한 상세 예제는 공식 Spark Document Quick Spark Guide에 나와 있다. 그 문서의 최종본에는 appendix에 전체 example도 또한 포함되어 있다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/659

트랙백 주소 :: http://www.yongbi.net/trackback/659

트랙백 RSS :: http://www.yongbi.net/rss/trackback/659

댓글을 달아 주세요

댓글 RSS 주소 : http://www.yongbi.net/rss/comment/659
[로그인][오픈아이디란?]
오픈아이디로만 댓글을 남길 수 있습니다