取数据超过内存限制的问题-解决方案（sample，takeSample，filter）

遇到的问题

在处理数据过程中，遇到需要取(n)个数的问题，而当样本量过大的时候，就不能简单的take(n)，这类问题一般有两种情况：

有序取 TopN

无序取 N

先来讨论无序取N的情况：

sample函数
- sample(boolean, fraction,seed) : 按比例抽取
- 返回一个新的RDD

withReplacement：元素可以多次抽样(在抽样时替换)

withReplacement=true，表示有放回的抽样

withReplacement=false，表示无放回的抽样

　

fraction：期望样本的大小作为RDD大小的一部分，当withReplacement=false时：选择每个元素的概率;分数一定是[0,1] ；当withReplacement=true时：选择每个元素的期望次数; 分数必须大于等于0

seed：随机数生成器的种子

图 11中的每个方框是一个 RDD 分区。通过 sample 函数，采样 50% 的数据。V1、 V2、 U1、 U2、U3、U4 采样出数据 V1 和 U1、 U2 形成新的 RDD

图 sample 算子对 RDD 转换

takeSample函数
- takeSample(boolean, sampleNum,seed) : 按固定数量抽取
- 返回一个Array[T]；该方法仅在预期结果数组很小的情况下使用，因为所有数据都被加载到driver的内存中
- takeSample函数先是计算fraction，也就是采样比例，然后调用sample函数进行采样，并对采样后的数据进行collect()，最后调用take函数返回num个元素

withReplacement：元素可以多次抽样(在抽样时替换)

withReplacement=true，表示有放回的抽样

withReplacement=false，表示无放回的抽样

num：返回的样本的大小

seed：随机数生成器的种子

图 takeSample算子对RDD转换

再来看一下有序取 TopN的情况：

filter函数
- 函数功能是对元素进行过滤，对每个元素应用 f 函数，返回值为 true 的元素在RDD中保留，返回值为 false 的元素将被过滤掉。内部实现相当于生成 FilteredRDD(this，sc.clean(f))
- 若是单列无法过滤，可以手动设置过滤位
- 有点遗憾的是无法准确的取固定量的数

　图中每个方框代表一个 RDD 分区， T 可以是任意的类型。通过用户自定义的过滤函数 f，对每个数据项操作，将满足条件、返回结果为 true 的数据项保留。例如，过滤掉 V2 和 V3 保留了 V1，为区分命名为 V'1。

　　图 filter 算子对 RDD 转换

附：takeSample源码

def takeSample(

    withReplacement: Boolean,

    num: Int,

    seed: Long = Utils.random.nextLong): Array[T] =

    {

        val numStDev = 10.0

        if (num < 0) {

            throw new IllegalArgumentException("Negative number of elements requested")

        } else if (num == 0) {

            return new Array[T](0)

        }

        val initialCount = this.count()

        if (initialCount == 0) {

            return new Array[T](0)

        }

        val maxSampleSize = Int.MaxValue - (numStDev * math.sqrt(Int.MaxValue)).toInt

        if (num > maxSampleSize) {

            throw new IllegalArgumentException("Cannot support a sample size > Int.MaxValue - "         + s"$numStDev * math.sqrt(Int.MaxValue)")

        }

        val rand = new Random(seed)

        if (!withReplacement && num >= initialCount) {

            return Utils.randomizeInPlace(this.collect(), rand)

        }

        val fraction = SamplingUtils.computeFractionForSampleSize(num, initialCount,        withReplacement)

        var samples = this.sample(withReplacement, fraction, rand.nextInt()).collect()

        // If the first sample didn't turn out large enough, keep trying to take samples;

        // this shouldn't happen often because we use a big multiplier for the initial size

        var numIters = 0

        while (samples.length < num) {

            logWarning(s"Needed to re-sample due to insufficient sample size. Repeat #$numIters")

            samples = this.sample(withReplacement, fraction, rand.nextInt()).collect()

            numIters += 1

        }

        Utils.randomizeInPlace(samples, rand).take(num)

}

取数据超过内存限制的问题-解决方案（sample，takeSample，filter）的更多相关文章

PHP大量数据循环时内存耗尽问题的解决方案
最近在开发一个PHP程序时遇到了下面的错误:PHP Fatal error: Allowed memory size of 268 435 456 bytes exhausted错误信息显...分析: ...
Java内存溢出的详细解决方案
本文介绍了Java内存溢出的详细解决方案.本文总结内存溢出主要有两种情况,而JVM经常调用垃圾回收器解决内存堆不足的问题,但是有时仍会有内存不足的错误.作者分析了JVM内存区域组成及JVM设置虚拟内存 ...
C结构体中数据的内存对齐问题
转自:http://www.cnblogs.com/qwcbeyond/archive/2012/05/08/2490897.html 32位机一般默认4字节对齐(32位机机器字长4字节),64位机一 ...
HBase指定大量列集合的场景下并发拉取数据时卡住的问题排查
最近遇到一例,HBase 指定大量列集合的场景下,并发拉取数据,应用卡住不响应的情形.记录一下. 问题背景退款导出中,为了获取商品规格编码,需要从 HBase 表 T 里拉取对应的数据. T 对商品 ...
MongoDBDao 工具类（包含分页取数据）
mongdb工具类 package e16wifi.statistic.com.mongodb; import java.util.ArrayList; import java.util.List; ...
使用程序获取整型数据和浮点型数据在内存中的表示---gyy整理
使用程序获取整型数据和浮点型数据在内存中的表示. C++中整型(int).短整型(short int).单精度浮点数(float).双精度浮点数(double)在内存中所占字节数不同,因此取值范围也不 ...
Android（java）学习笔记182：保存数据到SD卡（附加：保存数据到内存）
1. 如果我们要想读写数据到SD卡中,首先必须知道SD的路径: File file = new File(Environment.getExternalStorageDirectory()," ...
Stack的三种含义（数据超过栈的大小，就发生stack overflow）
非常典型的基础知识,转自http://www.ruanyifeng.com/blog/2013/11/stack.html 学习编程的时候,经常会看到stack这个词,它的中文名字叫做"栈& ...
windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步. 对nutc ...

随机推荐

async/await中reject的问题
promise 返回的 resolve 对象可能用 await 去接,但是 reject 无法用 await 接收到,所以要用 try catch 去处理例如发送邮件的接口设置: async fun ...
遇见zTree和chrome的俩坑
今天后台系统发现一bug,就是前几天用zTree做的树形结构,今下午突然不好使了,然后就查问题.我自己电脑装的是chrome浏览器,后台debug一看传的json数据,没毛病,想当然的断定不是数据的问 ...
HDU-1028-Ignatius and the Princess III(母函数）
链接: https://vjudge.net/problem/HDU-1028 题意: "Well, it seems the first problem is too easy. I wi ...
60、springmvc-异步请求-返回Callable
60.springmvc-异步请求-返回Callable @Controller public class AsyncController { @RequestMapping("async0 ...
洛谷 UVA10298 Power Strings 题解
Analysis 结论:设字符串长度为n,最长相同前后缀的长度为kmp[i],如n%(n-kmp[n])=0,则答案为n/(n-kmp[n]),否则为1. 如果循环节多于一个,以前n-kmp[n]个为 ...
java上传文件夹文件
这里只写后端的代码,基本的思想就是,前端将文件分片,然后每次访问上传接口的时候,向后端传入参数:当前为第几块文件,和分片总数下面直接贴代码吧,一些难懂的我大部分都加上注释了: 上传文件实体类: 看得 ...
Gluon学习02-使用GPU
小书匠kindle 目录,方便快速定位: 1.安装cuda与cudnn 2.安装mxnet-gpu 本机环境介绍: 系统:Linuxmint Python版本:Python3 1.安装cuda与cud ...
qt5.10 开发安卓之硌手的小虫子们
1.jdk 下载: 下载地址:http://www.oracle.com/technetwork/java/javase/overview/index.html windows 平台不要下载java ...
mysql的存储引擎与锁
一.背景知识 1.锁是计算机协调多个进程或线程并发访问某一资源的机制. A.锁分类. | 共享锁(读锁):在锁定期间,多个用户可以读取同一个资源,读取过程中数据不会发生变化. | 排他锁(写锁):在锁 ...
[信息收集]Nmap命令详解
0x00[介绍] Nmap,也就是Network Mapper,中文为"网络映射器". Nmap是一款开源的网络探测和安全审核的工具,它的设计目标是快速地扫描大型网络. 它是网络管 ...

取数据超过内存限制的问题-解决方案（sample，takeSample，filter）

遇到的问题

取数据超过内存限制的问题-解决方案（sample，takeSample，filter）的更多相关文章

随机推荐

热门专题