原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3832405.html 

一、Spark简介

  1、什么是Spark

    发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。

    相比于MapReduce,Spark能充分利用内存资源提高计算效率。

  2、Spark计算框架

    Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布式数据集),最后对RDD在内存中进行缓存和计算

  

        

  3、为什么Spark计算速度快
    (1)内存计算

    (2)优化执行计划

  4、Spark Api语言支持

    (1)Scala

    (2)Java

    (3)Python

  5、怎么运行Spark

    Local本地模式、Spark独立集群、Mesos、Yarn-Standalone、Yarn-Client

 

二、编程模型

  1、RDD(弹性分布式数据集)是什么

    只读的、分块的数据记录集合

    可以通过读取来不同存储类型的数据进行创建、或者通过RDD操作生成(map、filter操作等)

    使用者只能控制RDD的缓存或者分区方式

    RDD的数据可以有多种类型存储方式(可(序列化)存在内存或硬盘中)

  2、RDD 存储类型

    RDD可以设置不同类型存储方式,只存硬盘、只存内存等。

    

  3、RDD操作

    Transformation:根据已有RDD创建新的RDD数据集build

    Action:在RDD数据集运行计算后,返回一个值或者将结果写入外部存储
    
 
 4、RDD如何创建
    

   首先创建JavaSparkContext对象实例sc

JavaSparkContext  sc = new JavaSparkContext("local","SparkTest");

  接受2个参数:

    第一个参数表示运行方式(local、yarn-client、yarn-standalone等)

    第二个参数表示应用名字

 
  直接从集合转化 sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))

  从HDFS文件转化 sc.textFile("hdfs://")
  从本地文件转化 sc.textFile("file:/")
  下面例子中list2就是根据data2List生成的一个RDD
    
  

  根据文件或者集合生成RDD后,接着就可以通过RDD的Transformation操作来完成对数据的各种转化操作
  常用的map、flatMap、filter操作都是对单元素的操作
  常用的groupByKey、join都是对(key、value)类型元素操作
 
  5、RDD操作例子Java Api
  (1)map
    map操作对数据集每行数据执行函数里面操作

    list1数据集("a,b,c,d,e"),("1,2,3,4,5"); 
      

    执行结果:对list1数据集每行数据用","进行切分

      
   (2)flatMap
      flatMap相比于map操作,它对每行数据操作后会生成多行数据,而map操作只会生成一行。

      

      执行结果:对list1数据集每行数据用","进行切分

       

    (3)filter

     filter对每行数据执行过滤操作,返回true则保留,返回false则过滤该行数据

      

       执行结果:过滤list1数据集中包含‘a’字符的行

       

    (4)union

      union操作对两个RDD数据进行合并。与SQL中的union一样

      list2数据集("11,22,33,44,55"),("aa,bb,cc,dd,ee"); 
        
      执行结果:合并list1与list2数据集
        
    (5)groupByKey
      groupByKey对pair中的key进行group by操作

      pair1RDD数据集("a,1"),("b,2"),("a,3"),("b,4")

       

      执行结果:对pair1RDD数据集按key进行group by

       

    (6)reduceByKey

      reduceByKey对pair中的key先进行group by操作,然后根据函数对聚合数据后的数据操作

      

      执行结果:先group by操作后进行concat

        

    (7)mapValues

      mapValues操作对pair中的value部分执行函数里面的操作

        

      执行结果:对pair1RDD中value部分加上test字符串

        

    (8)join

      join与sql中join含义一致,将两个RDD中key一致的进行join连接操作

      pair2RDD数据集("a,11"),("b,22"),("a,13"),("c,4")
      

      执行结果:对pair1RDD与pair2RDD按key进行join

      

    (9)cogroup

      cogroup对两个RDD数据集按key进行group by,并对每个RDD的value进行单独group by

      

      执行结果:对pair1RDD与pair2RDD按key进行cogroup

        

  6、RDD数据如何输出

    使用RDD的Transformation对数据操作后,需要再使用Action操作才能将结果数据输出
    可以分别使用count、collect、save等操作来输出或统计RDD结果
  
  7、RDD Action实例
    
    执行结果:

    count:统计输出数据行数

      

    collect:输出所有输出数据

      

save:保存输出数据至外部存储

      

  7、WordCount实例

  

     执行结果:

    

  8、广播变量& 累加器

    Broadcast variables(广播变量)

      广播变量,类似于hadoop中的distribute cache,将同一份数据分发至每台机器。

    Accumulators(累加器)

      类似于MapReduce中的counter,用于计数
 
 

三、调度机制

  1、DAG Scheduler

    为每个job分割stage,同时会决定最佳路径,并且DAG Scheduler会记录哪个RDD或者stage的数据被checkpoint,从而找到最优调度方案                                         (transformations是延迟执行的原因)

    

  2、DAG Scheduler优化

    单个Stage内Pipeline执行

    基于分区选择合适的join算法最小化shuffle
    重用已经cache过的数据

  3、窄依赖& 宽依赖

    窄依赖:每个子分区只依赖有限数目的父分区

    宽依赖:每个子分区只依赖所有的父分区

      

  4、Stage

    调度器会在产生宽依赖的地方形成一个stage,同一个stage内的RDD操作会流式执行,不会发生数据迁移。

    

    rdd join操作属于宽依赖,从spark产生的日志可以看出需要分3个stage执行

      

  rdd flatMap、Map操作属于窄依赖,从spark产生的日志可以看出需要分1个stage执行

      

  5、Shuffle

    每个RDD都可以选择Partitioner进行shuffle操作

    任何在两个RDD上的shuffle操作,将选择其中一个RDD的Partitioner作为标准。如果两个RDD都没有设置Partitioner的话,就使用默认的HashPartitioner

    shuffle需要在node之间移动数据,会影响spark执行效率,应该尽量避免RDD操作中发生shuffle。

  

原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3832405.html 

Spark基础与Java Api介绍的更多相关文章

  1. _00017 Kafka的体系结构介绍以及Kafka入门案例(0基础案例+Java API的使用)

    博文作者:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...

  2. HDFS基础和java api操作

    1. 概括 适合一次写入多次查询情况,不支持并发写情况 通过hadoop shell 上传的文件存放在DataNode的block中,通过linux shell只能看见block,看不见文件(HDFS ...

  3. spark 快速入门 java API

    Spark的核心就是RDD,对SPARK的使用入门也就是对RDD的使用,包括action和transformation 对于Java的开发者,单单看文档根本是没有办法理解每个API的作用的,所以每个S ...

  4. HBase总结(十一)hbase Java API 介绍及使用示例

    几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) H ...

  5. hbase Java API 介绍及使用示例

    几个相关类与HBase数据模型之间的对应关系  java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) ...

  6. HDFS JAVA API介绍

    注:在工程pom.xml 所在目录,cmd中运行 mvn package ,打包可能会有两个jar,名字较长的是包含所有依赖的重量级的jar,可以在linux中使用 java -cp 命令来跑.名字较 ...

  7. HBase总结(十一)hbase Java API 介绍及使用演示样例

    几个相关类与HBase数据模型之间的相应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) H ...

  8. 第一阶段:Java基础 1.JAVA开发介绍---6. Java基本数据类型

    Java 的两大数据类型: 内置数据类型(基本数据类型) 引用数据类型 本数据类型: Java语言提供了八种基本类型.六种数字类型,一种字符类型,还有一种布尔型. byte,short,int,lon ...

  9. 第一阶段:Java基础 1.JAVA开发介绍---5. Java的注释,标识符、标识符的命名规范

    1.java注释 java中有三种注释方式,单行注释,多行注释,文档注释. (1).单行注释:快捷键Ctrl+/再次按撤销注释, (2).多行注释:Ctrl+shift+/ 撤销Ctrl+shift+ ...

随机推荐

  1. UIImagePickerController之Block回调

    方法使用:引入头文件 #import "UIImagePickerController+Block.h" 我这拖出来的两个属性 @property (weak, nonatomic ...

  2. Controltemplate datatemplate

    DataTemplate ControlTemplate we can search many posts about this topic. some valuable link: DataTemp ...

  3. Entity Framework 学习第一天

    文章是作为初学者记录之用,没有学习过的同学可以借鉴一下,至于用过和高手嘛,就算了吧.仅是入门.废话不多说了,马上新建个项目,添加Entity Framework,这个词以下将用EF代替. 本文使用的I ...

  4. log4j打印参数

    %m   输出代码中指定的消息 %p   输出优先级,即DEBUG,INFO,WARN,ERROR,FATAL  %r   输出自应用启动到输出该log信息耗费的毫秒数  %c   输出所属的类目,通 ...

  5. 使用cronolog切割tomcat catalina.out文件

    今天查看之前配置的tomcat发现catalina.out文件已经增大到接近5G,过不了多久就会将所在分区撑爆. 搜集了一下,大部分都使用cronolog切割catalina.out文件.按照这个方式 ...

  6. 【转】GCC编译使用动态链接库

    相关gcc参数:-l -L -shared -fPIC -static -c -o   原文地址:[脚本之家]http://www.jb51.net/article/34990.htm     根据链 ...

  7. ExtjsMVC开发过程中遇到的具体问题总结

    1.登陆相关问题 1.如何在文本框中增加提示信息             2.如何在文本框中触发回车事件             3.如何在回车事件中触发按钮的动作             总结:ht ...

  8. 如何撰写SCI论文的讨论部分?——经典结构 – 俗称“倒漏斗型。

  9. 用WebStorm编辑Markdown

    前言[转http://blog.fens.me/webstorm-markdown/] WebStorm是一个非常高效的开发工具,特别对于Web前端的开发.Markdown流行,因为其简化了HTML的 ...

  10. IT架构之IT架构标准——思维导图

    参考: [日] 野村综合研究所系统咨询事业本部. 图解CIO工作指南. 周自恒译 人民邮电出版社,2014