起因:之前用蓄水池抽样,算法精简,但直观性很差. 所以这次采用了简单的,为没一个行,赋值一个随机值,然后取 最大的K个作为,随机样本. 基本思路:为每一个行(record,记录,实体) 赋一个random值. 每个map取一个Top K 值. 由于是求topk,可以设置一个reduce,再求 Top K map阶段:一般思路, 读取所有的,sort,取前 10000.------>运行时发现巨慢. 之后换成了 小顶堆 求TopK.速度就很快了. import heapqimport random