RDD动作 - lg1011/SparkLearn GitHub Wiki

reduce(func)
作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。

collect()
作用：在驱动程序中，以数组的形式返回数据集的所有元素。

count()
作用：返回RDD中元素的个数

first()
作用：返回RDD中的第一个元素

take(n)
作用：返回一个由RDD的前n个元素组成的数组

takeOrdered(n)
作用：返回该RDD排序后的前n个元素组成的数组

aggregate
参数：(zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U)
作用：aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致
注：分区内和分区间都会加上初始值，与aggregateByKey不一样，aggregateByKey只在分区内加上初始值，分区间不会加。

fold(num)(func)
作用：折叠操作，aggregate的简化操作，seqOp和combOp一样

saveAsTextFile(path)
作用：将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它转换为文件中的文本。

saveAsSequenceFile(path)
作用：将数据集中的元素以Hadoop sequencefile格式保存到指定的目录下，可以是HDFS或者其他Hadoop支持的文件系统。

saveAsObjectFile(path)
作用：用于将RDD中的元素序列化成对象，存储到文件中。

countByKey()
作用：针对(K, V)类型的RDD，返回一个(K, Int)的map，表示每一个key对于的元素个数。

foreach(func)
作用：在数据集的每一个元素上，运行函数func进行更新

RDD动作 - lg1011/SparkLearn GitHub Wiki

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️