就在昨天,北京时间5月30日20点多.Spark 1.0.0最终公布了:Spark 1.0.0 released 依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide 个人认为这个功能对Hive的市场的影响非常小.但对Shark冲击非常大.就像win7和winXP的关系,自相残杀嘛? 这么着急的公布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~ 本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog…
Spark以yarn方式运行时抛出异常: [spark@master bin]$ cd /opt/spark--bin-hadoop2./bin [spark@master bin]$ ./spark-shell --master yarn-client Warning: Master yarn-client is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead. Set…
近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 . The logs are as below: 2014-08-11 20:10:59,795 INFO [main] org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8030 2014-08-11 20:11:01,838 INFO [main] or…
环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式 部分操作参考:http://www.cnblogs.com/chenfool/p/3858930.html,我之前写的spark 1.0.1部署 1 安装scala,具体操作参考我之前的博文 2 解压spark1.1.0包,这里我下载的是编译好的包,spark-1.1.0-bin-hadoop2.4.tgz -bin-hadoop2..tg…
为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.10.4 的目录位置. 2. 下载较新的pom.xml (https://github.com/tedyu/spark) 将该repository中的 spark/pom.xml和spark/examples/pom.xml下载下来,覆盖至用于编译的spark源代码中. 3. 进入源代码目录编译 ex…
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们进来看看吧,下面是它的官网的翻译. Spark SQL是支持在Spark中使用Sql.HiveSql.Scaca中的关系型查询表达式.它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数…
[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm spark-core-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm spark-history-server-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.…
最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待. 编译前需要安装JDK1.6以上.scala.Maven.Ant.hadoop2.20 如下图(/etc/profile): Spark编译有提供了两种方式: Maven编译:在 /etc/profile文中添加:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 执行命令:mv…
前言 今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代.1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持.Spark SQL作为一个新的组件增加,支持在Spark上存储和操作结构化的数据.已有的标准库比方ML.Streaming和GraphX也得到了非常大程度上的增强,对Spark和Python的接口也变得更稳定.下面是几个基本的改进点: 融合YARN的安全机制 Hadoop有着自己的安全机制,包含认证和授权.Spark如今能够和H…
前言 如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代.1.0.0版本号不仅增加了非常多新特性.而且提供了更好的API支持.Spark SQL作为一个新的组件增加.支持在Spark上存储和操作结构化的数据.已有的标准库比方ML.Streaming和GraphX也得到了非常大程度上的增强.对Spark和Python的接口也变得更稳定. 下面是几个基本的改进点: 融合YARN的安全机制 Hadoop有着自己的安全机制.包含认证和授权.Spark如今能够和Hadoo…