Spark常用函数（源码阅读六）

　　源码层面整理下我们常用的操作RDD数据处理与分析的函数，从而能更好的应用于工作中。

连接Hbase,读取hbase的过程，首先代码如下：

def tableInitByTime(sc : SparkContext,tableName : String,columns : String,fromdate: Date,todate : Date) : RDD[(ImmutableBytesWritable,Result)] = {

      val configuration = HBaseConfiguration.create()

      configuration.addResource("hbase-site.xml ")

      configuration.set(TableInputFormat.INPUT_TABLE,tableName )

      val scan = new Scan

      //scan.setTimeRange(fromdate.getTime,todate.getTime)

      val column = columns.split(",")

      for(columnName <- column){

        scan.addColumn("f1".getBytes(),columnName.getBytes())

      }

      val hbaseRDD = sc.newAPIHadoopRDD(configuration,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])

      System.out.println(hbaseRDD.count())

      hbaseRDD

  }

　　我们来一点一点解析整个过程。

　　1、val configuration = HBaseConfiguration.create()

　　这个用过hbase的伙伴们都知道，加载配置文件，其实调用的是HBase的API,返回的RDD是个Configuration。加载的配置文件信息包含core-default.xml,core-site.xml,mapred-default.xml等。加载源码如下：

　　2、随之设置表名信息，并声明scan对象，并且set读取的列有哪些，随后调用newAPIHadoopRDD,加载指定hbase的数据，当然你可以加上各种filter。那么下来我们看看newAPIHadoopRDD是干了什么呢？我们来阅读下里面的实现。

　　可以看到我们调用API,其实就是一个input过程，创建了一个newHadoopRDD对象，那么后台是一个input数据随后转化为RDD的过程。节点之间的数据传输是通过序列化数据，通过broadCast传输的conf信息。

　　3、随之进行count验证操作，查找数据的partition个数，hbase的数据当然是以block块的形式存储于HDFS。

　　4、下来开始map遍历，取出之前我们设置的字段，存入新的transRDD中，那么这个map函数干了什么呢?它其实是将原RDD所做的操作组织成一个function,创建一个MapPartitionsRDD。

　　5、下来我们看下filter函数干了什么呢？

 val calculateRDD = transRDD.filter(_._1 != null).filter(_._2 != null).filter(_._3 != null).filter(_._4 !=null)

      //map转换为字段（（身份证号，经度（保留两位小数），纬度（保留两位小数），电话号码，时间段标志），1），最后的1代表出现一次，用于后边做累加

      .map(data => {

      val locsp = data._2.split(",").take(2)

      val df   = new DecimalFormat("######0.000")

      val hour = data._4.split(":")(0).toInt

      val datarange = if(hour >= 9 && hour <= 18) 1 else 0

      ((data._1,df.format(locsp(0).toDouble),df.format(locsp(1).toDouble),data._3,datarange),1)

    })

　　　这里的filter是进行为空判断，我们从源码中可以看到传入的是一个布尔类型的变量，与map相同通过MapPartitionsRDD进行function的条件过滤，那么也就是说，其实我们可以在map中直接提取我们需要的数据，或者用filter进行为空过滤，条件过滤。

　　6、随后我们要进行相同key值的合并，那么，我们开始使用reduceByKey：

      //按key做reduce，value做累加

      .reduceByKey(_ + _)

　　底层调用了combineByKeyWithClassTag，这里的Partitioner参数我们之所以没有传入，是因为在map的RDD中已包含该RDD的partitioner的信息。它内部的实现将map的结果调用了require先进行merge，随后创建shuffleRDD.shuffleRDD就是最终reduce后的RDD。然后看不懂了。。。因为需要与整个流程相结合。所以后续继续深入~

Spark常用函数（源码阅读六）的更多相关文章

Spark RDD类源码阅读
每天进步一点点~开搞~ abstract class RDD[T: ClassTag]( //@transient 注解表示将字段标记为瞬态的 @transient private var _sc: ...
Struts2源码阅读(一)_Struts2框架流程概述
1. Struts2架构图当外部的httpservletrequest到来时 ,初始到了servlet容器(所以虽然Servlet和Action是解耦合的,但是Action依旧能够通过httpse ...
【原】AFNetworking源码阅读（六）
[原]AFNetworking源码阅读(六) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言这一篇的想讲的,一个就是分析一下AFSecurityPolicy文件,看看AF ...
[PHP源码阅读]explode和implode函数
explode和implode函数主要用作字符串和数组间转换的操作,比如获取一段参数后根据某个字符分割字符串,或者将一个数组的结果使用一个字符合并成一个字符串输出.在PHP中经常会用到这两个函数,因此 ...
38 网络相关函数(六)——live555源码阅读(四)网络
38 网络相关函数(六)——live555源码阅读(四)网络 38 网络相关函数(六)——live555源码阅读(四)网络简介 12)makeSocketNonBlocking和makeSocket ...
Spark源码阅读之存储体系--存储体系概述与shuffle服务
一.概述根据<深入理解Spark:核心思想与源码分析>一书,结合最新的spark源代码master分支进行源码阅读,对新版本的代码加上自己的一些理解,如有错误,希望指出. 1.块管理器B ...
Redis源码阅读（六）集群-故障迁移(下)
Redis源码阅读(六)集群-故障迁移(下) 最近私人的事情比较多,没有抽出时间来整理博客.书接上文,上一篇里总结了Redis故障迁移的几个关键点,以及Redis中故障检测的实现.本篇主要介绍集群检测 ...
CI框架源码阅读笔记3 全局函数Common.php
从本篇开始,将深入CI框架的内部,一步步去探索这个框架的实现.结构和设计. Common.php文件定义了一系列的全局函数(一般来说,全局函数具有最高的加载优先权,因此大多数的框架中BootStrap ...
3 EventTime 事件时间类和TimeNow函数——Live555源码阅读(一)基本组件类
这是Live555源码阅读的第一部分,包括了时间类,延时队列类,处理程序描述类,哈希表类这四个大类. 这里是时间相关类的第三个部分,也是最后一个部分. EventTime 事件时间类这个类和Dela ...

随机推荐

JavaScript构造函数学习笔记
1 理解Javascript constructor实现原理在 JavaScript 中,每个函数都有名为“prototype”的属性,用于引用原型对象.此原型对象又有名为“constructor” ...
xml 读取递归算法
xml 读取递归算法:
MSSQL—按照某一列分组后取前N条记录
以前在开发的时候遇到过一个需求,就是要按照某一列进行分组后取前几条数据,今天又有同事碰到了,帮解决了之后顺便写一篇博客记录一下. 首先先建一个基础数据表,代码如下: IF OBJECT_ID(N'Te ...
【JavaScript忍者秘籍】
linux sed的使用
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理, 可以将数据行进行替换.删除.新增.选取等特定工作. sed本质上是一个编辑器,但是它是非交互式的,这点与VIM不同:同时 ...
如何配置Windows 防火墙，允许SQL Server的远程连接
一.如何找到SQL Server正在侦听的TCP端口,可以按一下步骤: 1.打开 SQL Server 配置管理器中,从开始->所有程序-> Microsoft SQL Server 20 ...
各数据库查询前N条记录的SQL语句
sql在不同数据库查询前几条数据 1. ORACLE SELECT * FROM TABLE_NAME WHERE ROWNUM <= N; HQL: from table_name t or ...
Tomcat调试笔记
调试笔记在使用Tomcat过程中经常碰到问题,导致tomcat启动失败.如下↓ 由于报错太过笼统,我根本无法找出错误.后来我切换到Console视图下,看到了如下错误信息. 根据报错信息,错误原因是 ...
Linux中的入口函数main
main()函数,想必大家都不陌生了,从刚开始写程序的时候,大家便开始写main(),我们都知道main是程序的入口.那main作为一个函数,又是谁调用的它,它是怎么被调用的,返回给谁,返回的又是什么 ...
vertical-align:middle
img style="vertical-align:middle;" src="<%=basePath%>/images/ckpy.png" > ...

Spark常用函数（源码阅读六）

Spark常用函数（源码阅读六）的更多相关文章

随机推荐

热门专题