Spark는 RDD를 생성하는 다음 2가지 방법을 제공한다.
- Loading external dataset
- Parallelizing collection in driver program
RDD를 생성하기 위한 가장 간단한 방법은 memory에 있는 collection을 가져다가 parallelize method를 통해 SparkContext에 전달하는 방법이다. 이 방법은 Spark를 공부할 때, 아주 유용하다. Shell에서 간단하게 RDD를 빠르게 생성하여 여러 operation을 수행할 수 있기 때문이다. 그러나, prototyping이나 testing 목적이 아니라면, 하나의 machine에서 메모리에 전체 dataset을 가지고 있는 형태이므로 폭넓게 사용되는 것이 아니라는 점에 주의하라.
(Example 3-2. Python Parallelize Example)
lines = sc.parallelize(["pandas", "I like pandas"])
(Example 3-3. Scala Parallelize Example)
var lines = sc.parallelize(List("pandas", "I like pandas"))
(Example 3-4. Java Parallelize Example)
JavaRDD<String> lines = sc.parallelize(Array.asList("pandas", "I like pandas"));
RDD를 생성하는 더 일반적인 방법은 external storage로부터 data를 loading하는 것이다. External dataset을 loading하는 것은 Chapter 5에서 상세히 다룰 것이다. 그러나 우리는 이미 text file로부터 SparkContext.textFile(…)을 이용하여 String을 포함하는 RDD를 생성하기 위해 data loading하는 것을 이미 살펴보았다.
(Example 3-5. Python textFile Example)
lines = sc.textFile("/path/to/README.md")
(Example 3-6. Scala textFile Example)
var lines = sc.textFile("/path/to/README.md")
(Example 3-7. Java textFile Example)
JavaRDD<String> lines = sc.textFile("/path/to/README.md");
댓글을 달아 주세요
댓글 RSS 주소 : http://www.yongbi.net/rss/comment/680