就在昨天,北京时间5月30日20点多。Spark 1.0.0最终公布了:Spark 1.0.0 released

依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide

个人认为这个功能对Hive的市场的影响非常小。但对Shark冲击非常大。就像win7和winXP的关系,自相残杀嘛?

这么着急的公布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~

本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net/tntzbzc/article/details/27817189

进入今天的正题:Spark 1.x onYarn (Hadoop 2.4)

源代码编译

我的測试环境:

  • 系统:Centos 6.4 - 64位
  • Java:1.7.45
  • Scala:2.10.4
  • Hadoop:2.4.0 社区版

Spark 1.0.0 源代码地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz

解压源代码,在根去根文件夹下运行下面命令(sbt编译我没尝试)

./make-distribution.sh --hadoop 2.4.0 --with-yarn --tgz --with-hive

几个重要參数

--hadoop :指定Hadoop版本号

--with-yarn yarn支持是必须的

--with-hive 读取hive数据也是必须的,反正我非常讨厌Shark,以后开发们能够在Spark上自己封装SQL&HQLclient。也是个不错的选择。

#      --tgz: Additionally creates spark-$VERSION-bin.tar.gz

#      --hadoop VERSION: Builds against specified version of Hadoop.

#      --with-yarn: Enables support for Hadoop YARN.

#      --with-hive: Enable support for reading Hive tables.

#      --name: A moniker for the release target. Defaults to the Hadoop verison.

不想自己编译的话直接下载二进制包吧:

Spark 1.0.0 on Hadoop 1 / CDH3, CDH4 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz

Spark 1.0.0 on Hadoop 2 / CDH5, HDP2 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz

进过漫长的等待。在源代码跟文件夹下会生成一个tgz压缩包

把这个包copy到你想部署的文件夹并解压。

特别注意:仅仅须要把解压包copy到yarn集群中的随意一台。一个节点就够了,不须要在全部节点都部署。除非你须要多个Client节点调用spark作业。

在这里我们不须要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。

  1. mv 解压后的文件夹/conf/spark-env.sh.template 解压后的文件夹/conf/spark-env.sh

编辑spark-env.sh

export HADOOP_HOME=/opt/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

SPARK_EXECUTOR_INSTANCES=4

SPARK_EXECUTOR_CORES=1

SPARK_EXECUTOR_MEMORY=1G

SPARK_DRIVER_MEMORY=2G

SPARK_YARN_APP_NAME="Spark 1.0.0"

这是我的配置,配置和之前的几个版本号略有不同,但大差不差。

用Yarn Client调用一下MR中的经典样例:Spark版的word count

这里要特别注意。SparkContext有变动。之前版本号wordcount样例中的的第一个參数要去掉。

为了方便。我把 SPARK_HOME/lib/spark-assembly-1.0.0-hadoop2.4.0.jar 复制到了HDFS中进行调用。(直接调用本地磁盘也是能够的)

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdG50emJ6Yw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" width="888" height="256">

  1. SPARK_JAR="hdfs://master001.bj:9000/jar/spark/spark-assembly-1.0.0-hadoop2.4.0.jar" \
  2. ./bin/spark-class org.apache.spark.deploy.yarn.Client \
  3. --jar ./lib/spark-examples-1.0.0-hadoop2.4.0.jar \
  4. --class org.apache.spark.examples.JavaWordCount \
  5. --args hdfs://master001.bj:9000/temp/read.txt \
  6. --num-executors 50 \
  7. --executor-cores 1 \
  8. --driver-memory 2048M \
  9. --executor-memory 1000M \
  10. --name "word count on spark"

执行结果在stdout中查看

速度还行吧,用6台节点/50个core计算4.3GB文件,用时31秒。

今天就到这吧,有时间还的把那篇神经网络继续写下去,下次再见

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)的更多相关文章

  1. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(六)针对spark2.2.1以yarn方式启动spark-shell抛出异常:ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful

    Spark以yarn方式运行时抛出异常: [spark@master bin]$ cd /opt/spark--bin-hadoop2./bin [spark@master bin]$ ./spark ...

  2. spark 在yarn执行job时一直抱0.0.0.0:8030错误

    近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 . The logs are as below: 2014-08-11 ...

  3. spark 1.1.0 单机与yarn部署

    环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式 部分操作参考:http://www.cnb ...

  4. Spark 1.1.0 编译(为了支持hbase 0.98.6)

    为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.1 ...

  5. Spark1.0新特性-->Spark SQL

    Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...

  6. 【Spark学习】Spark 1.1.0 with CDH5.2 安装部署

    [时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.c ...

  7. Spark系列(一)Spark1.0.0源码编译及安装

    最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待. 编译前需要安装JDK1.6以上.scala.Maven.Ant.hadoop2.20 如下图( ...

  8. Spark 1.0.0版本号公布

    前言 今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代.1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持.Spark SQL作为一个新的 ...

  9. Spark 1.0.0版本发布

    前言 如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代.1.0.0版本号不仅增加了非常多新特性.而且提供了更好的API支持.Spark SQL作为一个新的组件增加. ...

随机推荐

  1. setStyleSheet来设定窗口部件的样式

    使用setStyleSheet来设置图形界面的外观:QT Style Sheets是一个很有利的工具,允许定制窗口的外观,此外还可以用子类QStyle来完成,他的语法很大比重来源于html的CSS,但 ...

  2. JSP内置对象Session

    创建和获取客户的会话 setAttribute()与getAttribute() session.setAttribute(String name , Object obj) 如session.set ...

  3. C#写的客户端连接 php的服务器端的小例子

    C#写的客户端连接 php的服务器端的小例子 php的server 端 <?php // server.php set_time_limit( 0 ); ob_implicit_flush(); ...

  4. 腾讯文学动作密集 疑为手Q发力移动阅读铺路

        移动互联网的门票之争并未结束,百度收购91无线,阿里投资新浪微博.UC浏览器,网易推易信.云音乐等等,都是互联网巨头争夺移动互联网门票的最佳案例.不过,上述任何巨头都不可忽视腾讯这个“狠角色” ...

  5. ruby on rails创建的页面訪问很慢

    ruby on rails创建的页面訪问很慢 用rvm安装的ruby1.9.3 解决:cd ~/.rvm/rubies/ruby-1.9.3-p547/lib/ruby/1.9.1/webrick v ...

  6. 第 3 章 编写 PAM 应用程序和服务

    Solaris 开发者安全性指南 Previous: 第 2 章 开发特权应用程序 Next: 第 4 章 编写使用 GSS-API 的应用程序 第 3 章 编写 PAM 应用程序和服务 可插拔验证模 ...

  7. [linux]ubuntu apt-get安装软件失败

    1.首先查看 dns 配置 sudo vi /etc/resolv.conf nameserver 114.114.114.114 nameserver 8.8.8.8 2.修改 apt-get 源 ...

  8. LVS的调度算法分析

    LVS调度算法 一.静态调度算法 1.  rr(round robin)轮询调度,即调度器将客户端的请求依次的传递给内部的服务器,从1到N,算法简洁,无须记录状态,但是不考虑每台服务器的性能. 配置如 ...

  9. php 多进程中的信号问题

    1.以下代码sleep时间远小于20 <?php // 当子进程退出时,会触发该函数 function sig_handler($sig) { switch($sig) { case SIGCH ...

  10. C++--allocator类的使用

    C++为我们提供了安全的内存空间申请方式与释放方式,可是new与delete表达式却是把空间的分配回收与对象的构建销毁紧紧的关联在一起.实际上,作为与C语言兼容的语言,C++也为我们提供了更加底层的内 ...