Spark读取HDFS文件，任务本地化(NODE

Spark也有数据本地化的概念（Data Locality），这和MapReduce的Local Task差不多，如果读取HDFS文件，Spark则会根据数据的存储位置，分配离数据存储最近的Executor去执行任务。

这么理解没错，我搭建的Spark集群情况是这样：

15台DataNode节点的HDFS集群，我在每个DataNode上都部署了一个Spark Worker，并且，启动Spark Application的时候，每个Worker都有一个Executor，这样理论上来说，只要读取HDFS文件，Spark都可以使用本地任务来读取(NODE_LOCAL)。

在$SPARK_HOME/conf/slaves文件中配置了每个Worker的hostname,之后在Master上，执行$SPARK_HOME/sbin/start-slaves.sh来启动Workers，启动之后集群如图显示：

需要大数据学习资料和交流学习的同学可以加大数据学习群：724693112 有免费资料分享和一群学习大数据的小伙伴一起努力

进入spark-sql,从hive中扫描一张表，执行情况如下：

奇怪的是，所有读取HDFS文件的Task Locality Level全部是ANY，也就是说，没有一个使用NODE_LOCAL本地化任务，这样导致集群的网络消耗非常大（因为所有的数据都要经网络拷贝一遍），如图，后面那个峰值是执行任务的网络情况：

直接说原因和解决办法吧。

请注意最上面集群情况的图中，Worker Id和Address中都使用的IP地址作为Worker的标识，而HDFS集群中一般都以hostname作为slave的标识，这样，Spark从HDFS中获取文件的保存位置对应的是hostname，而Spark自己的Worker标识为IP地址，两者不同，因此没有将任务的Locality Level标记为NODE_LOCAL,而是ANY。奇怪的是，我在Spark的slaves文件中都配置的是hostname,为何集群启动后都采用了IP地址？最大的可能是/etc/hosts文件的配置。

大数据学习交流群:724693112 欢迎想学习大数据和需要大数据学习资料的同学来一起学习。

解决办法是：没有采用slaves文件+start-slaves.sh的方式启动，而是每台Worker单独启动，

使用命令：$SPARK_HOME/sbin/start-slave.sh -h ，这样启动之后，Spark WEBUI中Worker Id和Address中都以hostname来显示了，如图：

再次进入spark-sql，执行同样的任务，所有的Task Locality Level都是NODE_LOCAL，没有网络传输，速度比之前快了好几倍。

这才是期望的结果，至于导致salves文件中配置的明明是hostname,为何Spark集群中解析成IP地址的原因，后续再查吧。

Spark读取HDFS文件，任务本地化(NODE_LOCAL)的更多相关文章

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configur ...
问题记录：spark读取hdfs文件出错
错误信息: scala> val file = sc.textFile("hdfs://kit-b5:9000/input/README.txt") 13/10/29 16: ...
Spark读取HDFS中的Zip文件
1. 任务背景近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同 ...
spark读hdfs文件实现wordcount并将结果存回hdfs
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; imp ...
记录一次读取hdfs文件时出现的问题java.net.ConnectException: Connection refused
公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs ...
大数据学习day20-----spark03-----RDD编程实战案例（1 计算订单分类成交金额，2 将订单信息关联分类信息，并将这些数据存入Hbase中，3 使用Spark读取日志文件，根据Ip地址，查询地址对应的位置信息
1 RDD编程实战案例一数据样例字段说明: 其中cid中1代表手机,2代表家具,3代表服装 1.1 计算订单分类成交金额需求:在给定的订单数据,根据订单的分类ID进行聚合,然后管理订单分类名称, ...
Spark设置自定义的InputFormat读取HDFS文件
本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serial ...
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
spark读取本地文件
/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supp ...

随机推荐

AlarmManager(闹钟服务)
1.Timer类与AlarmManager类区别: 对Timer就是定时器,一般写定时任务的时候肯定离不开他,但是在Android里,他却有个短板,不太适合那些需要长时间在后台运行的定时任务,因为 ...
配置WEB错误页面
项目运行时,难免会出现错误,这些错误我们不可以也不方便直接让用户看到,所以配置错误页面是非常必要的. 一下是项目的Web.xml文件,在最下方阴影部分是配置错误界面. <?xml version ...
Equals和GetHashCode
Q:2个方法同时被重写的场景? A:Dictionary或HashTable的key使用时,必须重写这两个方法; 因为:根据key取值的时候也是把key转换成HashCode并且验证Equals后再取 ...
node-sass 安装失败解决方案
从失败到成功,尝试了不下20,最终终于解决了: 解决方案如下: 参考方案一:http://www.jianshu.com/p/89f5e094b8ce(具体的配置看这个) 参考方案二:http://b ...
Mac之间的远程控制
Mac 自带屏幕共享的工具,两台 Mac 之间的设置步骤: 1.主机(被远程控制的电脑)的设置: 系统偏好设置 -->共享 : 选择打开屏幕共享服务: 添加访问用户或者允许所有用户: 电脑 ...
常见MIME类型列表整理
译者注:英文原文标题为 Incomplete list of MIME types,意为不完整的/未完成的 MIME 类型列表. 这是一份 MIME 类型列表,以及各个类型的文档类别,按照它们的常见扩 ...
使用canal通过mysql复制协议从binlog实现热数据nosql缓存（1）
binlog: mysql在运行过程中执行的DML(增删改)操作都会以二进制形式记录在binlog中 canal server: canal server作为从数据库(slave)向主数据库发送dum ...
mysql中单个字段包含','转换成多条记录
问题:把value中的值取出作为另外一个表的where条件时,必须把value中的用','分隔的每一个id截取出来解决方法: ),) ) #本文参考自网络某文章,非原创
Awvs–网络漏洞扫描工具
Awvs漏洞扫描自动化在WEB安全方面,安全侧使用Acunetix_Web_Vulnerability_Scanner_11.xWEB漏洞扫描工具定期手工对m站和www站进行全站漏洞扫描. 为了防止 ...
【FFMPEG】Ubuntu上安装FFMPEG
在之前,我们成功地使用mingw+msys在Windows平台下编译FFmpeg(见 http://www.linuxidc.com/Linux/2014-11/109839.htm),并生成了ffp ...

Spark读取HDFS文件，任务本地化(NODE_LOCAL)

Spark读取HDFS文件，任务本地化(NODE_LOCAL)的更多相关文章

随机推荐

热门专题