RDD的操作 - twilighthook/BigDataNote GitHub Wiki

RDD主要分成兩種操作，轉換(Transformation)和行動(Actions)操作。轉換操作指的是對已存在的RDD或資料操作，並回傳一個新的RDD( 例如map()或是filter() )，行動操作則是做檔案中的運算( 例如first()或是count() )，並回傳RDD以外的資料型態。對於Spark來講處理轉換和操作機制差別很大，有些會關係到資源被占用的多寡，所以分別兩者之間的差異是蠻重要的。

RDD建立

用既有數列生成RDD

val num = sc.parallelize(1 to 10 , 3)

建立1~10的數列，並指定分布在3個分布點，第二個參數可省略

用既有檔案生成RDD(以hdfs為例)

val file = sc.textFile("hdfs://localhost/~")

轉換(Transfomations)操作

轉換操作是對既有的資料或RDD操作並回傳RDD，例如下者：

val inputRDD = sc.textFile("text.txt")
val filterRDD = inputRDD.filter( line => line.contains("temperature") )

inputRDD, filterRDD都是RDD型態的配置

其他也有一些function回傳的是RDD

map(func):經由func函式處理後，回傳新的數據結構
flatMap(func):和map()相似，但回傳數據只有扁化後的型態，因為是先做map在做flatten

val input : {"hello world" , "rdd"}
經過filter(line => line.split(" "))<br>
map回傳{ [ "hello" , "world" ] , [ "rdd" ] }<br>
flatMap回傳{ "hello" , "world" , "rdd" }

filter(func):經由func函式，找到對應為true的資料回傳

val test1 = List.range(1, 10)
val test2 = test.filter(_ % 2 == 0)
test2 = (2,4,6,8)

sample(withReplacement, frac, seed):根據給的seed，回傳其中的frac數據 withReplacement:樣本是否可以重複抽取而重複、frac:取樣比例、seed:亂數種子

val test = input.sample(false , 0.5)

test會得到input隨機50%左右的數據(因為是用 Bernoulli sampling的算法，不能確定會取樣多少個，每個樣本都是50%被抽取機率)

takeSample(withReplacement, num, seed) withReplacement:樣本是否可以重複抽取而重複、num:取樣數量、seed:亂數種子在ETL數據要進行先行測試時可以使用，避免浪費大量轉換、抽取時間

val test = input.sample(false , 100)

test會取到100個input中的數據，並回傳陣列型態

union() 會進行RDD的聯集

a:{1,2.3}
b:{3,4,5}
a.union(b) : {2,3,1,3,4,5}

groupByKey([taskNum]) tackNum : 可傳入任務數量可以將數組依據相同的key進行value合併
reduceByKey(func , [taskNum]) 可以將數組依據相同的key進行value的function操作
reduceByKeyLocally() 和上面的reduceByKey相似，但回傳的是MAP型態並不是RDD，對於避免分布式資料的負荷可以使用此函式
join(otherDataset , [taskNum]) 加入其他資料集，(K,M).join((K,N)) = (K,(M+N))，並且依照key合併
groupWith(otherDataset , [taskNum]) (K,M).join((K,N)) = (K,Seq(M),Seq(N))
cartesian(otherDataset) 算出兩個資料集的笛卡爾積

動作(Actions)操作

collect() 以collection的方式回傳物件，通常皆在filter之使用
take(n) 取出數列前N個，可超過數列數量(只回傳上限)
first() 回傳數列第一個
saveAsTextFile(path) 存數據用toString轉換後到指定位置，可支援hdfs
saveAsSequenceFile(path) 存數據到指定位置，只限定key-value型態，可支援hdfs

Value或是Key-Value的Transformation運算不會提交Job Action算式會觸發SparkContext並提交Job

資料集處理範例

map1 = Map(1 -> 2 , 2 -> 4 , 3 -> 8)
map2 = Map(1 -> 3 , 2 -> 5 , 4 -> 2)

依照相同key做sum

(map1.toList ++ map2.toList).groupBy(_._1).map(case(k,v) => k -> v.map(_._2).sum)
(map1.toSeq ++ map2.toSeq).groupBy(_._1).map(case(k,v) => k -> v.map(_._2).sum)