Spark优化之一：分布式下的map操作是闭包

例如对一个JavaPairRDD<String, String>做遍历操作，常见的，我们可以通过先通过collect()操作将它转化为Map对象再进行遍历，也可以使用Spark提供的mapToPair方法进行遍历。然而两者的性能差距是非常显著的。

仅仅遍历1500条长度为155的序列，前者需要消耗6s，后者只需要消耗不到1s的时间。这说明，将Spark内存对象转化为普通Java对象有时会产生巨大的开销！

这里需要提到的是，我依旧还没有源代码，过年争取看一下。

贴上两个遍历操作的源代码：

第一种Map遍历：

        List<String> s_key = new ArrayList<>();

        fastaDataJavaPairRDD.collect().forEach(a -> {

            s_key.add(a._1);

        });

        fastaDataJavaPairRDD = null;

        List<String> s_out1 = new ArrayList<>();

        List<String> s_out2 = new ArrayList<>();

        fastaMSADataJavaPairRDD.collect().forEach(a -> {

            s_out1.add(a._1);

            s_out2.add(a._2);

        });

        fastaMSADataJavaPairRDD = null;

        System.out.println((System.currentTimeMillis()-startTime)+"ms");

第二种mapToPair遍历：

        List<String> s_key = new ArrayList<>();

        fastaDataJavaPairRDD.mapToPair(

                (PairFunction<Tuple2<String, String>, String, String>) stringTuple2 -> {

                    s_key.add(stringTuple2._1);

                    return new Tuple2<>(null, null);

                }

        );

        fastaDataJavaPairRDD = null;

        List<String> s_out1 = new ArrayList<>();

        List<String> s_out2 = new ArrayList<>();

        fastaMSADataJavaPairRDD.mapToPair(

                (PairFunction<Tuple2<String, String>, String, String>) stringTuple2 -> {

                    s_out1.add(stringTuple2._1);

                    s_out2.add(stringTuple2._2);

                    return new Tuple2<>(null, null);

                }

        );

        fastaMSADataJavaPairRDD = null;

        System.out.println((System.currentTimeMillis()-startTime)+"ms");

但是，也请注意，分布式下的map，mapToPair等操作都是闭包的，也要注意这些操作内部调用的类和方法都必须是序列化后的，否则是线程不安全的。Spark在操作时，将map等算子内部的操作代码拷贝到每台从节点，从节点进行分别的操作，因此内部不应该出现线程不安全的类和方法。需要注意。

Spark优化之一：分布式下的map操作是闭包的更多相关文章

spark优化参数调节和故障参数调节
1:“物尽其用”,但给spark分配多个机器后,先需配置spark-submit shell如下: /usr/local/spark/bin/spark-submit \ --class com.sp ...
【spark】spark应用（分布式估算圆周率+基于Spark MLlib的贷款风险预测）
注:本章不涉及spark和scala原理的探讨,详情见其他随笔一.分布式估算圆周率计算原理:假设正方形的面积S等于x²,而正方形的内切圆的面积C等于Pi×(x/2)²,因此圆面积与正方形面积之比C ...
聊聊分布式下的WebSocket解决方案
前言最近王子自己搭建了个项目,项目本身很简单,但是里面有使用WebSocket进行消息提醒的功能,大体情况是这样的. 发布消息者在系统中发送消息,实时的把消息推送给对应的一个部门下的所有人. 这里面 ...
spark优化项
一.Shuffle优化项 1.Shuffle优化配置 - spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的Buffer ...
lucene之排序、设置权重、优化、分布式搜索(转)
lucene之排序.设置权重.优化.分布式搜索(转) 1. 基本应用 using System;using System.Collections.Generic;using System.Text;u ...
spark优化设置
->>>配置参数优化 SparkConf sc = new SparkConf().setAppName("com.sp.test.GroupTop3").set ...
（四）伪分布式下jdk1.6+Hadoop1.2.1+HBase0.94+Eclipse下运行wordCount例子
本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子. HBase在伪分布环境下安装一. 前提条件已经成功地安装 ...
Spark Streaming之六：Transformations 普通的转换操作
与RDD类似,DStream也提供了自己的一系列操作方法,这些操作可以分成四类: Transformations 普通的转换操作 Window Operations 窗口转换操作 Join Opera ...
spark on yarn模式下内存资源管理（笔记1）
问题:1. spark中yarn集群资源管理器,container资源容器与集群各节点node,spark应用(application),spark作业(job),阶段(stage),任务(task) ...

随机推荐

kafka常用命令笔记
0.查看有哪些主题: ./kafka-topics.sh --list --zookeeper 192.168.0.201:12181 1.查看topic的详细信息 ./kafka-topics.sh ...
Tensorflowonspark安装
1.实验环境 Centos7+Python3.6+Java8+Hadoop2.6+Spark2.3+Tensorflow1.10.0 2.Tensorflow安装最简单的方式:pip install ...
MySQL统计数据库大小
select concat(truncate(sum(data_length)/1024/1024,2),'mb') as data_size, concat(truncate(sum(max_dat ...
BZOJ 2756 SCOI2012 奇怪的游戏最大流
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=2756 Description Blinker最近喜欢上一个奇怪的游戏. 这个游戏在一个 N ...
eclipse快捷键（复制自己看）
1几个最重要的快捷键代码助手:Ctrl+Space(简体中文操作系统是Alt+/)快速修正:Ctrl+1单词补全:Alt+/打开外部Java文档:Shift+F2 显示搜索对话框:Ctrl+H快速O ...
SIP初步
http://blog.sina.com.cn/s/blog_6b10255301012db7.html 1.什么是SIP SIP(会话发起协议)属于IP应用层协议,用于在IP网上为用户提供会话应用. ...
学习MVC中出现的一个BUG
BUG描述:No Entity Framework provider found for the ADO.NET provider with invariant name 'System.Data.S ...
Java面试题(下)
这部分主要是开源Java EE框架方面的内容,包括hibernate.MyBatis.spring.Spring MVC等,由于Struts 2已经是明日黄花,在这里就不讨论Struts 2的面试题, ...
Spark中如何生成Avro文件
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了. 我本人由于对java不熟, ...
【题解】HAOI2011Problem b
第一次接触莫比乌斯反演,总之脑子都快要炸掉了……好难啊!本蒟蒻表示根本无法理解呜呜呜呜呜……不过在机房DL的帮助下总算是磕磕绊绊的A掉了这一题: 这道题目要我们的求的是:(1)ΣiΣj [gcd(i, ...

Spark优化之一：分布式下的map操作是闭包

Spark优化之一：分布式下的map操作是闭包的更多相关文章

随机推荐

热门专题