1. 补充算子

    transformations

  • mapPartitionWithIndex

    类似于mapPartitions,除此之外还会携带分区的索引值。

  • repartition

    增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)

  • coalesce

    coalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。

    true为产生shuffle,false不产生shuffle。默认是false。

    如果coalesce设置的分区数比原来的RDD的分区数还多的话,第二个参数设置为false不会起作用,如果设置成true,效果和repartition一样。即repartition(numPartitions) = coalesce(numPartitions,true)

  • groupByKey

    作用在K,V格式的RDD上。根据Key进行分组。作用在(K,V),返回(K,Iterable <V>)。

  • zip

    将两个RDD中的元素(KV格式/非KV格式)变成一个KV格式的RDD,两个RDD的每个分区元素个数必须相同。

  • zipWithIndex

    该函数将RDD中的元素和这个元素在RDD中的索引号(从0开始)组合成(K,V)对。

Action

  • countByKey

    作用到K,V格式的RDD上,根据Key计数相同Key的数据集元素。

  • countByValue

    根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

  • reduce

    根据聚合逻辑聚合数据集中的每个元素。

  1. PV&UV
  2. Spark-Submit提交参数

    Options:

  • --master

     MASTER_URL, 可以是spark://host:port, mesos://host:port, yarn,  yarn-cluster,yarn-client, local

  • --deploy-mode

    DEPLOY_MODE, Driver程序运行的地方,client或者cluster,默认是client。

  • --class

    CLASS_NAME, 主类名称,含包名

  • --jars

    逗号分隔的本地JARS, Driver和executor依赖的第三方jar包

  • --files

    用逗号隔开的文件列表,会放置在每个executor工作目录中

  • --conf

    spark的配置属性

  • --driver-memory

    Driver程序使用内存大小(例如:1000M,5G),默认1024M

  • --executor-memory

    每个executor内存大小(如:1000M,2G),默认1G

     

Spark standalone with cluster deploy mode only:

  • --driver-cores

    Driver程序的使用core个数(默认为1),仅限于Spark standalone模式

Spark standalone or Mesos with cluster deploy mode only:

  • --supervise

    失败后是否重启Driver,仅限于Spark  alone或者Mesos模式

Spark standalone and Mesos only:

  • --total-executor-cores

    executor使用的总核数,仅限于SparkStandalone、Spark on Mesos模式

     

Spark standalone and YARN only:

  • --executor-cores

    每个executor使用的core数,Spark on Yarn默认为1,standalone默认为worker上所有可用的core。

     

YARN-only:

  • --driver-cores

    driver使用的core,仅在cluster模式下,默认为1。

  • --queue

    QUEUE_NAME 指定资源队列的名称,默认:default

  • --num-executors

    一共启动的executor数量,默认是2个。

  1. 资源调度源码分析
  • 资源请求简单图

  • 资源调度Master路径:

路径:spark-1.6.0/core/src/main/scala/org.apache.spark/deploy/Master/Master.scala

  • 提交应用程序,submit的路径:

路径:spark-1.6.0/core/src/main/scala/org.apache.spark/ deploy/SparkSubmit.scala

  • 总结:
  1. Executor在集群中分散启动,有利于task计算的数据本地化。
  2. 默认情况下(提交任务的时候没有设置--executor-cores选项),每一个Worker为当前的Application启动一个Executor,这个Executor会使用这个Worker的所有的cores和1G内存。
  3. 如果想在Worker上启动多个Executor,提交Application的时候要加--executor-cores这个选项。
  4. 默认情况下没有设置--total-executor-cores,一个Application会使用Spark集群中所有的cores。
  • 结论演示

    使用Spark-submit提交任务演示。也可以使用spark-shell

  1. 默认情况每个worker为当前的Application启动一个Executor,这个Executor使用集群中所有的cores和1G内存。

./spark-submit

--master spark://node1:7077

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

10000

  1. 在workr上启动多个Executor,设置--executor-cores参数指定每个executor使用的core数量。

./spark-submit

--master spark://node1:7077

--executor-cores 1

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

10000

  1. 内存不足的情况下启动core的情况。Spark启动是不仅看core配置参数,也要看配置的core的内存是否够用。

./spark-submit

--master spark://node1:7077

--executor-cores 1

--executor-memory 3g

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

10000

  1. --total-executor-cores集群中共使用多少cores

    注意:一个进程不能让集群多个节点共同启动。

./spark-submit

--master spark://node1:7077

--executor-cores 1

--executor-memory 2g

--total-executor-cores 3

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

10000

  1. 任务调度源码分析
  • Action算子开始分析

    任务调度可以从一个Action类算子开始。因为Action类算子会触发一个job的执行。

  • 划分stage,以taskSet形式提交任务

    DAGScheduler 类中getMessingParentStages()方法是切割job划分stage。可以结合以下这张图来分析:

  1. 二次排序

 

SparkConf sparkConf = new SparkConf()

.setMaster("local")

.setAppName("SecondarySortTest");

final JavaSparkContext sc = new JavaSparkContext(sparkConf);

 

JavaRDD<String> secondRDD = sc.textFile("secondSort.txt");

 

JavaPairRDD<SecondSortKey, String> pairSecondRDD = secondRDD.mapToPair(new PairFunction<String, SecondSortKey, String>() {

 

    /**

     *

     */

    private
static
final
long
serialVersionUID = 1L;

 

    @Override

    public Tuple2<SecondSortKey, String> call(String line) throws Exception {

String[] splited = line.split(" ");

int
first = Integer.valueOf(splited[0]);

int
second = Integer.valueOf(splited[1]);

SecondSortKey secondSortKey = new SecondSortKey(first,second);

return
new Tuple2<SecondSortKey, String>(secondSortKey,line);

    }

});

 

pairSecondRDD.sortByKey(false).foreach(new

VoidFunction<Tuple2<SecondSortKey,String>>() {

    

    /**

     *

     */

    private
static
final
long
serialVersionUID = 1L;

 

    @Override

    public
void call(Tuple2<SecondSortKey, String> tuple) throws Exception {

System.out.println(tuple._2);

    }

});

public
class SecondSortKey implements Serializable,Comparable<SecondSortKey>{

    /**

     *

     */

    private
static
final
long
serialVersionUID = 1L;

    private
int
first;

    private
int
second;

    public
int getFirst() {

        return
first;

    }

    public
void setFirst(int
first) {

        this.first = first;

    }

    public
int getSecond() {

        return
second;

    }

    public
void setSecond(int
second) {

        this.second = second;

    }

    public SecondSortKey(int
first, int
second) {

        super();

        this.first = first;

        this.second = second;

    }

    @Override

    public
int compareTo(SecondSortKey o1) {

        if(getFirst() - o1.getFirst() ==0 ){

            return getSecond() - o1.getSecond();

        }else{

            return getFirst() - o1.getFirst();

        }

    }

}

  1. 分组取topN和topN

SparkConf conf = new SparkConf()

.setMaster("local")

.setAppName("TopOps");

JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD<String> linesRDD = sc.textFile("scores.txt");

 

JavaPairRDD<String, Integer> pairRDD = linesRDD.mapToPair(new PairFunction<String, String, Integer>() {

 

/**

*

*/

private
static
final
long
serialVersionUID = 1L;

 

@Override

public Tuple2<String, Integer> call(String str) throws Exception {

    String[] splited = str.split("\t");

    String clazzName = splited[0];

    Integer score = Integer.valueOf(splited[1]);

    return
new Tuple2<String, Integer> (clazzName,score);

}

});

 

pairRDD.groupByKey().foreach(new

VoidFunction<Tuple2<String,Iterable<Integer>>>() {

 

/**

*

*/

private
static
final
long
serialVersionUID = 1L;

 

@Override

public
void call(Tuple2<String, Iterable<Integer>> tuple) throws Exception {

    String clazzName = tuple._1;

    Iterator<Integer> iterator = tuple._2.iterator();

    

    Integer[] top3 = new Integer[3];

    

    while (iterator.hasNext()) {

Integer score = iterator.next();

 

for (int
i = 0; i < top3.length; i++) {

     if(top3[i] == null){

top3[i] = score;

break;

     }else
if(score > top3[i]){

for (int
j = 2; j > i; j--) {

     top3[j] = top3[j-1];

}

top3[i] = score;

break;

     }

}

}

System.out.println("class Name:"+clazzName);

for(Integer sscore : top3){

System.out.println(sscore);

}

}

});    

  1. SparkShell的使用
  • 概念:

SparkShell是Spark自带的一个快速原型开发工具,也可以说是Spark的scala REPL(Read-Eval-Print-Loop),即交互式shell。支持使用scala语言来进行Spark的交互式编程。

  • 使用:

启动Standalone集群,./start-all.sh

在客户端上启动spark-shell:

./spark-shell --master spark://node1:7077

启动hdfs,创建目录spark/test,上传文件wc.txt

启动hdfs集群:

start-all.sh

创建目录:

hdfs dfs -mkdir -p /spark/test

上传wc.txt

hdfs dfs -put /root/test/wc.txt /spark/test/

wc附件:

运行wordcount

sc.textFile("hdfs://node1:9000/spark/test/wc.txt")

.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).foreach(println)

Spark day03的更多相关文章

  1. spark基于win上面的操作

    自己前面的小练习一直都是在linux上面写的,可是最近由于要把他迁移到win上面,我在自己的csdn博客有对如何在win上面搭建spark环境做出说明,好了,我们还是先看看 今天的内容吧 1.假如你有 ...

  2. Spark踩坑记——Spark Streaming+Kafka

    [TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

  3. Spark RDD 核心总结

    摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...

  4. spark处理大规模语料库统计词汇

    最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...

  5. Hive on Spark安装配置详解(都是坑啊)

    个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...

  6. Spark踩坑记——数据库(Hbase+Mysql)

    [TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...

  7. Spark踩坑记——初试

    [TOC] Spark简介 整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...

  8. Spark读写Hbase的二种方式对比

    作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputForm ...

  9. (资源整理)带你入门Spark

    一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...

随机推荐

  1. 洛谷P3745 [六省联考2017]期末考试

    传送门 题解 //Achen #include<algorithm> #include<iostream> #include<cstring> #include&l ...

  2. java基础之自定义单链表练习

    一.单链表 1.单链表是一种链式存取的数据结构,用一组地址任意的存储单元存放线性表中的数据元素.链表中的数据是以结点来表示的,每个结点的构成:元素(数据元素的映象) + 指针(指示后继元素存储位置), ...

  3. eureka添加security验证之后,client注册失败

    高版本,以下配置已弃用 security: basic: enabled: true 所以需要自定义security配置开启basic认证,参考我的配置类 @Configuration @Enable ...

  4. Springboot 之 启动报错-Cannot determine embedded database driver class for database type NONE

    Springboot 之 启动报错-数据库 springboot项目在启动时,报如下错误: Error starting ApplicationContext. To display the auto ...

  5. hive启动一些错误记录

    java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMeta ...

  6. Luogu P1273 有线电视网(树形dp+背包)

    P1273 有线电视网 题面 题目描述 某收费有线电视网计划转播一场重要的足球比赛.他们的转播网和用户终端构成一棵树状结构,这棵树的根结点位于足球比赛的现场,树叶为各个用户终端,其他中转站为该树的内部 ...

  7. 技术人自己的KPI

    为什么需要技术KPI 在业务技术团队,有一个不好的趋势,就是团队越来越业务,越来越没有技术味道.每个人都在谈业务,技术大会上在谈业务,周会上在聊业务,周报里写的是业务项目......唯独少被谈及的是技 ...

  8. bzoj 2662 [BeiJing wc2012]冻结——分层图

    题目:https://www.lydsy.com/JudgeOnline/problem.php?id=2662 这种的都是分层图. #include<iostream> #include ...

  9. hdu 2586 (lca-RMQ)

    #include <iostream> #include <cstdlib> #include <cstring> #include <queue> # ...

  10. shell总结:读取文件、参数、if、分割字符串、数组长度、空文件、变量赋值、多进程、按行切割文件、查看线程

    Reference: http://saiyaren.iteye.com/blog/1943207 1.     Shell  读取文件和写文件 for line in $(<top30000. ...