RDD转换 Key Value类型 - lg1011/SparkLearn GitHub Wiki
partitionBy
作用:对pairRDD进行分区操作,如果原有的partitionRDD和现有的partitionRDD是一致的话就不进行分区,否则会发生ShuffleRDD,即会产生shuffle过程。
groupByKey
作用:groupByKey也是对每个可以进行操作,但只生成一个sequence。
reduceByKey(func, [numTasks])
作用:在一个(K, V)的RDD上调用,返回一个(K, V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数可以通过第二个可选的参数来设置。
reduceByKey和groupByKey的区别
reduceByKey:按照key进行聚合,在shuffle之前有combine(预聚合)操作,返回结果是RDD[k, v]
groupByKey:按照key进行分组,直接进行shuffle
reduceByKey比groupByKey更建议使用,但是需要注意是否会影响业务逻辑。
aggregateByKey
参数:(zeroValue: U, [paritioner: Partitioner]) (seqOp: (U, V) => U, combOp: (U, U) => U)
作用:在k-v对的RDD中,按key将value进行分组合并,合并时,将每个value和初始值作为seq函数的参数,进行计算,返回的结果作为一个新的k-v对,然后再将结果按照key进行合并,最后将每个分组的value传递给combine函数进行计算(先将前两个value进行计算,将返回结果和下一个value传给combine函数,以此类推),将key与计算结果作为一个新的k-v对输出。
参数描述:
zeroValue:给每一个分区中的每一个key一个初始值
seqOp:函数用于在每一个分区中用初始值逐步迭代value
combOp:函数用于合并每个分区中的结果
foldByKey
参数:(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]
作用:aggregateByKey的简化操作,seqOp和combOp相同
combineByKey©
参数:(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)
作用:对相同K,把V合并成一个集合
参数描述:
createCombiner:combineByKey()会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫做createCombiner()的函数来创建那个键对应的累加器的初始值
mergeValue:如果这是一个在处理当前分区之前已经遇到的键,它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并
mergeCombiners:由于每个分区都是独立处理的,因此对于同一个键可以有多个累加器。如果有两个或者更多的分区都有对应同一个键的累加器,就需要使用用户提供的mergeCombiners()方法将各个分区的结果进行合并
sortByKey([ascending], [numTasks])
作用:在一个(K, V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K, V)的RDD
mapValues
作用:针对于(K, V)形式的类型只对V进行操作
join(otherDataset, [numTasks])
作用:在类型为(K, V)和(K, W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K, (V, W))的RDD
类似SQL中的left join
cogroup(otherDataset, [numTasks])
作用:在类型为(K, V)和(K, W)的RDD上调用,返回一个(K, (Iterable, Iterable))类型的RDD
类似SQL中的full join