spark rdd元素println

1.spark api主要分两种：转换操作和行动操作。如果在转化操作中println spark打印了我也看不到。

val result = sqlContext.sql(sql)

val resultRdd = result.rdd.map(x => {

    //不能print，即使print了也看不到

}）

2.打印RDD的元素

参考：https://strongyoung.gitbooks.io/spark-programming-guide/rdds/rdd_operations/printing_elements_of_an_rdd.html

一个常用的打印RDD里的元素的方法是，使用rdd.foreach(println)或rdd.map(println)。在一个单机环境下，这将能产生期望的输出，并且打印所有的RDD的元素。然而，在一个集群模式中，对stdout的输出会调用执行器的stdout，从而把输出写到执行器的标准输出（即stdout），而不是驱动程序，所以，在驱动程序的标准输出中不会显示这些。要在驱动程序中打印所有的元素，可以使用collect()方法，先将RDD传输到驱动程序节点，然后，使用:

rdd.collect().foreach(println)

这会引起驱动程序在内存外运行，尽管，因为collect()获取整个RDD到一台单机上。如果你只需要打印RDD的部分元素，一个更安全的方法就是使用take()：

rdd.take(100).foreach(prinltn)

spark rdd元素println的更多相关文章

spark RDD的元素顺序（ordering）测试
通过实验发现: foreach()遍历的顺序是乱的但: collect()取到的结果是依照原顺序的 take()取到的结果是依照原顺序的为什么呢???? 另外,可以发现: take()取到了指定数 ...
Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
spark RDD编程，scala版本
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark RDD编程核心
一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建.转换.调用求值. 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式 ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark RDD（Resilient Distributed Datasets）论文
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
Spark RDD Action 简单用例(二)
foreach(f: T => Unit) 对RDD的所有元素应用f函数进行处理,f无返回值./** * Applies a function f to all elements of this ...
Spark RDD Action 简单用例(一)
collectAsMap(): Map[K, V] 返回key-value对,key是唯一的,如果rdd元素中同一个key对应多个value,则只会保留一个./** * Return the key- ...

随机推荐

Linux 部署Tomcat图文注解一学就会
导读安装tomcat前首先要安装对应的jdk并配置Java环境. 安装jdk,请参考:点我直达安装Tomcat 下载Tomcat包官网地址:点我直达 Tomcat与jdk兼容关系注:Tomca ...
记录一次云主机部署openstack的血泪史
看见这个部署成功的留下了激动的泪水经过长时间的BUG苦肝终于成功部署成功部署的环境2vCPU 8GB 阿里云主机,部署成功以后内存占用确实蛮高的记录这一次踩坑,给后来者避免踩坑时间,个人踩坑踩 ...
python爬取网站页面时，部分标签无指定属性而报错
在写爬取页面a标签下href属性的时候,有这样一个问题,如果a标签下没有href这个属性则会报错,如下: 百度了有师傅用正则匹配的,方法感觉都不怎么好,查了BeautifulSoup的官方文档,发现一 ...
Gogs
Deploy Gogs(node2) 1 create gogs account sudo adduser git su git cd /home/git mkdir /home/git/.ssh 2 ...
P1969 积木大赛题解
原题链接简要题意: 每次把一段区间 \(+1\),问得到 \(a\) 数组的最小次数. 我们可以把 \(+1\) 得到 \(a\) 换成,从 \(a\) 依次 \(-1\) 得到 \(0\). 算法 ...
SpannableStringBuilder实现TextView华丽变身
前言想要在TextView 的文本添加一些突出文字,然后点击可以进行跳转,首先想到的就是TextView拼接,但是考虑到换行后的显示又不是很合适,一番查询后发现了SpannableStringBui ...
一文上手TensorFlow2.0（一）
目录: Tensorflow2.0 介绍 Tensorflow 常见基本概念从1.x 到2.0 的变化 Tensorflow2.0 的架构 Tensorflow2.0 的安装(CPU和GPU) Te ...
【python系统学习11】循环语句里的F4
循环语句里的F4 深入了解下四个新语句,分别是:continue.break.pass.else以及他们搭配for.while循环等语句时,所产生的化学反应. else 由于continue.brea ...
python—异常处理try
写代码的时候会遇到各种各样的异常,那么代码就不会继续往下走了.比如说10除以0是错误的,因为除数不能为零学会捕捉异常,在异常出现的时候我们要做什么操作. 捕捉异常 d={} #例如定义字典 try: ...
IC设计流程概述
芯片设计分为前端设计和后端设计,前端设计(也称逻辑设计)和后端设计(也称物理设计)并没有统一严格的界限,涉及到与工艺有关的设计就是后端设计. Front-end design flow 1. 规格制定 ...

spark rdd元素println

spark rdd元素println的更多相关文章

随机推荐

热门专题