本篇博客中的操作都在 ./bin/pyspark 中执行. 对单个 Pair RDD 的转化操作 下面会对 Pair RDD 的一些转化操作进行解释.先假设我们有下面这些RDD(在pyspark中操作): nums = sc.parallelize( [ (1,2) ,(3,4) ,(3,6) ] ) x = sc.parallelize( [ (1,[2,4,5]) ,(4,[7,8,0]) ,(4,[6,7,5])] ) reduceByKey 概述:合并具有相同键值的值. 例子: >>&…