Spark源码系列（七）Spark on yarn具体实现

【Spark源码系列（七）Spark on yarn具体实现】的更多相关文章

Spark源码系列:RDD repartition、coalesce 对比

在上一篇文章中 Spark源码系列:DataFrame repartition.coalesce 对比对DataFrame的repartition.coalesce进行了对比,在这篇文章中,将会对RDD的repartition.coalesce进行对比. RDD重新分区的手段与DataFrame类似,有repartition.coalesce两个方法 repartition def repartition(numPartitions: Int): JavaRDD[T] /** * Return…

Spark源码分析之Spark Shell（下）

继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上) function main() { if $cygwin; then # Workaround for issue involving JLine and Cygwin # (see http://sourceforge.net/p/jline/bugs/40/). # If you're us…

spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析

在上篇 spark 源码分析之五 -- Spark内置RPC机制剖析之一创建NettyRPCEnv 中,涉及到了Diapatcher 内容,未做过多的剖析.本篇来剖析一下它的工作原理. Dispatcher 是消息的分发器,负责将消息分发给适合的 endpoint 其实这个类还是比较简单的,先来看它的类图: 我们从成员变量入手分析整个类的内部构造和机理: 1. endpoints是一个 ConcurrentMap[String, EndpointData], 负责存储 endpoint name…

spark 源码分析之八--Spark RPC剖析之TransportContext和TransportClientFactory剖析

spark 源码分析之八--Spark RPC剖析之TransportContext和TransportClientFactory剖析 TransportContext 首先官方文档对TransportContext的说明如下: Contains the context to create a TransportServer, TransportClientFactory, and to setup Netty Channel pipelines with a TransportChannelH…

使用 IntelliJ IDEA 导入 Spark源码及编译 Spark 源代码

1. 准备工作首先你的系统中需要安装了 JDK 1.6+,并且安装了 Scala.之后下载最新版的 IntelliJ IDEA 后,首先安装(第一次打开会推荐你安装)Scala 插件,相关方法就不多说了.至此,你的系统中应该可以在命令行中运行 Scala.我的系统环境如下: 1. Mac OS X(10.10.4) 2.JDK 1.7.79 3.Scala 2.10.4 4. IntelliJ IDEA 14 另外,最后还是建议大家开始先使用 pre-built 的 Spark,对 Spark…

Spark源码分析之Spark Shell（上）

终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧.不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的.另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口. 先来介绍一下Spark-shell是什么? Spark-shell是提供给用户即时交互的一个命令窗口,你可以在里面编写spark代码,然后根据你的命令立即进行运算.这种东西也被叫做REPL,(Read-Eval-Print Loop)交互式开发环境. 先来粗略的…