java实现spark常用算子之collect

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;

import java.util.Arrays;
import java.util.List;

/**
 * collect 算子：
 * 将集群中其他节点的数据拉去到driver所在的机器上
 * 如果数据量比较大时，容易造成内存溢出
 * foreach遍历数据是在从节点上执行，collect是在driver机器上执行
 */
public class CollectOpeartor {

    public static void main(String[] args){
        SparkConf conf = new SparkConf().setMaster("local").setAppName("collect");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<String> names = Arrays.asList("w1","w2","w3","w4","w5");

        JavaRDD<String> nameRdd = sc.parallelize(names);

        JavaRDD<String> tempRdd =nameRdd.map(new Function<String, String>() {
            @Override
            public String call(String s) throws Exception {
                return "001"+s;
            }
        });

        List<String> result = tempRdd.collect();

        for(int i = 0; i < result.size(); i++){
            System.err.println(result.get(i));
        }
    }

}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！

java实现spark常用算子之collect的更多相关文章

java实现spark常用算子之Union
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之TakeSample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SaveAsTextFile
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Repartitions
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之mapPartitionsWithIndex
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之map
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之intersection
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之frist
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之flatmap
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

随机推荐

vue router 如何使用params query传参，以及有什么区别
写在前面: 传参是前端经常需要用的一个操作,很多场景都会需要用到上个页面的参数,本文将会详细介绍vue router 是如何进行传参的,以及一些小细节问题.有需要的朋友可以做一下参考,喜欢的可以点波赞 ...
idea maven sync Cannot resolve xxx 的解决方案
经常会出现这种奇葩情况,提示找不到包其实是因为网络波动或者突然断掉,导致包更新出现问题直接去maven的仓库目录找到不能找到的包删掉相关目录然后重新更新maven就行了比如直接去仓库目录 ...
Linux高级调试与优化——ptrace
ptrace (process trace) #include <sys/ptrace.h> long ptrace(enum __ptrace_request request, pid_ ...
初学vue 在做项目时遇到的问题与解决办法（使用element组件）（二）
表格每行里都有按钮 <el-table-column prop="option" label="操作" align="center" ...
MongoDB简单查询语句<平时使用语录，持续更新>
MongoDB查询语句 --查询近三个月的客户使用量 aggregate:使用聚合 match:过滤 group分组 -- mysql中select org_code as 近三个月使用商户 ...
flutter 快速生成Widget
快速生成对象 List.generate(20, (i){ return Text("$i"); }), 快速生成Widget ListView.builder( itemCoun ...
[Nova ERROR] InternalError: Nova requires QEMU version 2.5.0 or greater.
目录文章目录目录问题调查解决问题 nova-compute service 启动失败 InternalError: Nova requires QEMU version 2.5.0 or ...
修改ubuntu终端显示目录和计算机名称(转)
注意:使用方法:# PS1='自定义内容' 注意两边的单引号示例: PS1='(\u@\H \d \t)\$' ------------------------------------------- ...
如何在Ubuntu / CentOS 6.x上安装Bugzilla 4.4
这里,我们将展示如何在一台Ubuntu 14.04或CentOS 6.5/7上安装Bugzilla.Bugzilla是一款基于web,用来记录跟踪缺陷数据库的bug跟踪软件,它同时是一款免费及开源软件 ...
使用Python创建AI比你想象的轻松
使用 Python 创建 AI 比你想象的轻松可能对AI领域,主要开发阶段,成就,结果和产品使用感兴趣.有数百个免费源和教程描述使用Python的AI.但是,没有必要浪费你的时间看他们.这里是一个详 ...

java实现spark常用算子之collect

java实现spark常用算子之collect的更多相关文章

随机推荐

热门专题