(Chapter 3) 15. Creating RDDs :: 2015/04/08 13:20

Spark RDD 생성하는 다음 2가지 방법을 제공한다.

  • Loading external dataset
  • Parallelizing collection in driver program

RDD 생성하기 위한 가장 간단한 방법은 memory 있는 collection 가져다가 parallelize method 통해 SparkContext 전달하는 방법이다. 방법은 Spark 공부할 , 아주 유용하다. Shell에서 간단하게 RDD 빠르게 생성하여 여러 operation 수행할 있기 때문이다. 그러나, prototyping이나 testing 목적이 아니라면, 하나의 machine에서 메모리에 전체 dataset 가지고 있는 형태이므로 폭넓게 사용되는 것이 아니라는 점에 주의하라.


(Example 3-2. Python Parallelize Example)

lines = sc.parallelize(["pandas", "I like pandas"])


(Example 3-3. Scala Parallelize Example)

var lines = sc.parallelize(List("pandas", "I like pandas"))


(Example 3-4. Java Parallelize Example)

JavaRDD<String> lines = sc.parallelize(Array.asList("pandas", "I like pandas"));


RDD 생성하는 일반적인 방법은 external storage로부터 data loading하는 것이다. External dataset loading하는 것은 Chapter 5에서 상세히 다룰 것이다. 그러나 우리는 이미 text file로부터 SparkContext.textFile(…) 이용하여 String 포함하는 RDD 생성하기 위해 data loading하는 것을 이미 살펴보았다.


(Example 3-5. Python textFile Example)

lines = sc.textFile("/path/to/README.md")


(Example 3-6. Scala textFile Example)

var lines = sc.textFile("/path/to/README.md")


(Example 3-7. Java textFile Example)

JavaRDD<String> lines = sc.textFile("/path/to/README.md");

2015/04/08 13:20 2015/04/08 13:20
Trackback Address :: http://www.yongbi.net/trackback/680
[로그인][오픈아이디란?]
오픈아이디로만 댓글을 남길 수 있습니다
Name
Password
Homepage

Secret
< PREV |  1  |  ...  122  |  123  |  124  |  125  |  126  |  127  |  128  |  129  |  130  |  ...  566  |  NEXT >