Spark(三) -- Shark与SparkSQL】的更多相关文章

王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html Spark实战高手之路 系列书籍  http://down.51cto.com/tag-Spark%E6%95%99%E7%A8%8B.html 王家林老师(邮箱18610086859@126.com 电话18610086859) 中国目前唯一的移动互联网和云计算大数据集大成者: 云计算大数据Spark亚太研究院院长和首席专家:…
首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的 下面给出一张来自网上的Shark构架图 从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着HDFS上的文件 从图中绿色格子中可以看到,在Shark的整个构架中HiveQL的引擎还是占据着底层不…
1.部署环境 OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) Hadoop:Hadoop 2.4.1 Hive:0.11.0 JDK:1.7.0_60 Python:2.6.6(spark集群需要python2.6以上,否则无法在spark集群上运行py) Spark:0.9.1(最新版是1.1.0) Shark:0.9.1(目前最新的版本,但是只能够兼容到spark-0.9.1,见shark 0.9.1 release) Zo…
本文测试的Spark版本是1.3.1 Text文本文件测试 一个简单的person.txt文件内容为: JChubby,13 Looky,14 LL,15 分别是Name和Age 在Idea中新建Object,原始代码如下: object TextFile{ def main(args:Array[String]){ } } SparkSQL编程模型: 第一步: 需要一个SQLContext对象,该对象是SparkSQL操作的入口 而构建一个SQLContext对象需要一个SparkContex…
一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop  mr  sql 2.phenoix //hbase上构建sql的交互过程 该模块能在spark上运行sql语句 3.DataFrame //数据框,表 在spark中的数据框,sparkSQL就能以完全分布式的方式来处理数据.组合数据框可以来自各种数据源来进行查询的处理 4.SparkSQL //SQL  |  DataFrame API 5.RDD[Customer…
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase.hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式. 目录: Spark集群安装 参数配置 测试验证 Spark集群安装: 在ambari -service 界面选择 “add Service",如图: 在弹出界面选中spark服务,如图: "下一步”,分配host节点,因为前期我们已经安装了hadoop 和hbase集群,按向…
本文主要介绍spark join相关操作. 讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便进行对比. 我们以实例来进行说明.我的实现步骤记录如下. 1.数据准备 2.HSQL描述 3.Spark描述 1.数据准备 我们准备两张Hive表,分别是orders(订单表)和drivers(司机表),通过driver_id字段进行关联.数据如下: orders orders表有两个字段,订单id…
一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在group by之后使用的sum,avg等 UDTF(User-Defined Table-Generating Functions),用户自定义生成函数,有点像stream里面…
一个Dataset是一个分布式的数据集,而且它是一个新的接口,这个新的接口是在Spark1.6版本里面才被添加进来的,所以要注意DataFrame是先出来的,然后在1.6版本才出现的Dataset,提供了哪些优点呢?比如强类型,支持lambda表达式,还有还提供了sparksql执行引擎的一些优化,DataFrame里面大部分东西在Dataset里面都是能用的,Dataset它能够通过哪些方式构建?一个是jvm对象,还有一些函数表达式比如map.flatMap.filter等等.这个Datase…
目录 SparkSQL读取Kudu,写出到Kafka 1. pom.xml 依赖 2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink 3.利用广播变量,将KafkaProducer广播到每一个executor SparkSQL读取Kudu,写出到Kafka 背景:通过spark SQL读kudu表,写入到kafka 参考:1.spark向kafka写入数据 2.通过Spark向Kafka写入数据 1. pom.xml 依赖 <dependencies>…