spark遇到的错误1-内存不足

原来的代码：

 JavaRDD<ArticleReply> javaRdd = rdd.flatMap(new FlatMapFunction<String, ArticleReply>() {

            private static final long serialVersionUID = 10000L;

            List<ArticleReply> newList = new ArrayList<ArticleReply>();

            public Iterable<ArticleReply> call(String line) throws Exception {

                String[] splits = line.split("\t");

                ArticleReply bean = new ArticleReply();

                bean.setAreaId(split[0]);

                bean.setAgent(Integer.parseInt(splits[1]));

                bean.setSerial(splits[2]);

                newList.add(bean);

                return newList;

            }

        });

正确写法：

 JavaRDD<ArticleReply> javaRdd = rdd.flatMap(new FlatMapFunction<String, ArticleReply>() {

            private static final long serialVersionUID = 10000L;

            public Iterable<ArticleReply> call(String line) throws Exception {
　　　　　　　　　List<ArticleReply> newList = new ArrayList<ArticleReply>();

                String[] splits = line.split("\t");

                ArticleReply bean = new ArticleReply();

                bean.setAreaId(split[0]);

                bean.setAgent(Integer.parseInt(splits[1]));

                bean.setSerial(splits[2]);

                newList.add(bean);

                return newList;

            }

        });

错误的写法中把list声明和初始化在flatMap函数之外，造成每次调用flatMap函数后，list的bean会增加一个，同时程序会将改list返还回去，那么spark接收的对象1+2+3+...+N个，

而不是N个，会极大地消耗spark的内存，造成spark运行内存不足。

spark遇到的错误1-内存不足的更多相关文章

【Spark】榨干Spark性能-driver、exector内存突破256M
榨干Spark性能-driver.exector内存突破256M spark driver memory 256m_百度搜索 Spark executor.memory - CSDN博客 sparkd ...
Spark在Executor上的内存分配
spark.serializer (default org.apache.spark.serializer.JavaSerializer ) 建议设置为 org.apache.spark.ser ...
Spark 1.6以后的内存管理机制
Spark 内部管理机制 Spark的内存管理自从1.6开始改变.老的内存管理实现自自staticMemoryManager类,然而现在它被称之为"legacy". " ...
配置Spark on YARN集群内存
参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默 ...
Spark BlockManager的通信及内存占用分析(源码阅读九）
之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开,即下载Block文件的功能.然后在启动jbo的时候由Driver上的BlockManagerMaster对 ...
c语言中较常见的由内存分配引起的错误_内存越界_内存未初始化_内存太小_结构体隐含指针
1.指针没有指向一块合法的内存定义了指针变量,但是没有为指针分配内存,即指针没有指向一块合法的内浅显的例子就不举了,这里举几个比较隐蔽的例子. 1.1结构体成员指针未初始化 struct stude ...
Spark：相关错误总结
http://blog.csdn.net/pipisorry/article/details/52916307 路径错误 spark FileNotFoundError: [Errno 2] No s ...
使用spark访问hive错误记录
在spark集群中执行./spark-shell时报以下错误: 18/07/23 10:02:39 WARN DataNucleus.Connection: BoneCP specified but ...
Spark笔记(一):错误总结
1.转义字符: 常见的replaceAll,split,mkstring中涉及到特殊字符的都要加上转义字符,比如str.split("\\|"),str.replaceAll(&q ...

随机推荐

github中fork的使用
转载https://www.cnblogs.com/patchouli/p/6511251.html 由于git的权限控制功能比较弱,如果想给某个项目提供代码除了直接获得项目的push权限外,gith ...
[UE4]创建KillInfoPanel
不设置UniformGrid的尺寸,改成在父级“WB_FPPCharacter”中设置尺寸,这样可以更方便的控制.
unity3d 通过代码建立曲面
using UnityEngine;using System;using System.Collections.Generic; using System.Collections;using Syst ...
Python的可迭代对象、迭代器和生成器
可迭代对象(Iterable) 这些可以直接作用于for循环的对象统称为可迭代对象:Iterable. 我们已经知道,可以直接作用于for循环的数据类型有以下几种: 一类是集合数据类型,如list.t ...
Python 画3D图像
绘制一副3D图像 draw3D(X,Y,Z, angle) import numpy as np from matplotlib import pyplot as plt from mpl_toolk ...
Unity中进程间通信——使用异步Socket
开发Unity项目过程中,即时通信功能来完成服务器与客户端自定义的数据结构封装. 如果要序列化和数据封装参考:Unity3D之C#用Socket传数据包蓝鸥3G封装的类客户端脚本ClientScr ...
Hbase 分布式环境安装部署
Hbase分布式集群搭建--安装步骤这一步如果没有deploy.sh脚本的可以使用scp命令分别分发到其他节点去到集群里看看安装好的hbase 使用脚本启动所有节点的zookeeper 启动HDF ...
Hdu 4622 Reincarnation(后缀自动机）
/* 字符串长度较小, 可以离线或者直接与处理所有区间的答案动态加入点的时候, 因为对于其他点的parent构造要么没有影响, 要么就是在两个节点之间塞入一个点, 对于minmax的贡献没有改变所 ...
人工智能时代，是时候学点Python了！
“是时候学点Python了”.作为一名不怎么安分的程序员,你或许觉得,产生这样的想法并不奇怪,但学习Python却是出于自己对工作现状以及如何应对未来挑战所作出的思考.读过我以前博客的朋友,可能都知道 ...
[UGUI]帧动画
ImageFrameAnimation.cs using System.Collections.Generic; using UnityEngine; using UnityEngine.UI; [R ...

spark遇到的错误1-内存不足

spark遇到的错误1-内存不足的更多相关文章

随机推荐

热门专题