Spark SQL Hive Support Demo

前提：

1、spark1.0的包编译时指定支持hive：./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --with-hive --tgz

2、安装完spark1.0；

3、拷贝mysql驱动包到$SPARK_HOME/lib下；

Spark SQL 支持Hive案例：

1、将hive-site.xml配置文件拷贝到$SPARK_HOME/conf下，编译时已经将hive打到包中了，故此处只需要hive-site配置文件即可

hive-site.xml文件内容形如：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

      <name>javax.jdo.option.ConnectionURL</name>

      <value>jdbc:mysql://hadoop000:3306/hive?createDatabaseIfNotExist=true</value>

    </property>

    <property>

      <name>javax.jdo.option.ConnectionDriverName</name>

      <value>com.mysql.jdbc.Driver</value>

    </property>

    <property>

      <name>javax.jdo.option.ConnectionUserName</name>

      <value>root</value>

    </property>

    <property>

      <name>javax.jdo.option.ConnectionPassword</name>

      <value>root</value>

    </property>

</configuration>

2、启动spark： spark-shell

案例来源于spark官方文档：http://spark.apache.org/docs/latest/sql-programming-guide.html

//创建hiveContext

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

// 隐式转换

import hiveContext._

//创建hive表

hql("CREATE TABLE IF NOT EXISTS hive.kv_src (key INT, value STRING)")

//加载数据到hive表

hql("LOAD DATA LOCAL INPATH '/home/spark/app/spark-1.0.0-bin-2.3.0-cdh5.0.0/examples/src/main/resources/kv1.txt' INTO TABLE hive.kv_src")

//通过hql查询

hql("FROM hive.kv_src SELECT key, value").collect().foreach(println)

详细信息参见官方文档：http://spark.apache.org/docs/latest/sql-programming-guide.html

Spark SQL Hive Support Demo的更多相关文章

Caused by: java.sql.SQLException: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@d7c365, see the next exception for details.
解决方法:https://stackoverflow.com/questions/37442910/spark-shell-startup-errors 异常: 18/01/29 19:04:27 W ...
local模式运行spark-shell时报错 java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState':
先前在local模式下,什么都不做修改直接运行./spark-shell 运行什么问题都没有,然后配置过在HADOOP yarn上运行,之后再在local模式下运行出现以下错误: java.lang. ...
Spark SQL -- Hive
使用Saprk SQL 操作Hive的数据前提准备: 1.启动Hdfs,hive的数据存储在hdfs中; 2.启动hive -service metastore,元数据存储在远端,可以远程访问; 3 ...
spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ...
小记---------spark组件与其他组件的比较 spark/mapreduce ;spark sql/hive ; spark streaming/storm
Spark与Hadoop的对比 Scala是Spark的主要编程语言,但Spark还支持Java.Python.R作为编程语言 Hadoop的编程语言是Java
Spark记录-org.apache.spark.sql.hive.HiveContext与org.apache.spark.sql.SQLContext包api分析
HiveContext/SQLContext val hiveContext=new HiveContext(new SparkContext(new SparkConf().setAppName(& ...
Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': —— windows 开发环境使用spark 无法访问hdfs 问题解决
## 错误: ## 解决方案: 下载 hadoop 的可执行tar包,解压放在windows 本地,并配置环境变量. 在解压后的文件夹的bin目录下放入两个文件: winutils.exe, had ...
Spark SQL读取hive数据时报找不到mysql驱动
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...
spark SQL学习（spark连接hive）
spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql. ...

随机推荐

ROS功能包- rrt_exploration
一种基于RRT实现的多机器人地图探测算法的ROS软件包. 它还具有使用图像处理提取边界点.基于图像的边界检测等功能. 适用版本:indigo.jade.kinetic.lunar. 注意事项:官网文档 ...
移动端自动化openatx开源项目介绍，pytest并发测试框架结合
开头相信不少用过appium的同学,对于使用appium的一些体会与感受是否与我相似 1. appium启动服务和app程序非常慢 2. appium多线程并发需要启动多个服务 3. appium必 ...
shell 脚本实战笔记(3)--集群机器的时间同步设置
背景: 有些分布式服务(比如HBase服务), 依赖于系统时间戳, 如果集群各个节点, 系统时间不一致, 导致服务出现诡异的情况. 解决方案: 那如何同步集群各个节点之间的时间? 采用NTP(Netw ...
Ubuntu 18.10安装Firefox 和 Google Chrome
================================ 工作环境迁移到Linux上,操作系统使用Linux Mint19.1(基于Ubuntu的), 自带的浏览器器是低版本的英文版,现在使用 ...
Microsoft - Get Course Order
// "static void main" must be defined in a public class. public class Main { public static ...
Python之进程（multiprocessing）
一.multiprocessing模块简介——进程基于“threading”的接口 multiprocessing模块支持创建进程——使用threading模块相似的API.multiprocessi ...
HDU2476 String painter
题意 String painter Time Limit: 5000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others ...
day27 python学习 logging
logging模块函数式简单配置 import logging logging.debug('debug message') logging.info('info message') logging ...
Selenium（ThoughtWorks公司开发的web自动化测试工具）
Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7.8.9).Mozilla Firefox.Mozill ...
java后台调用url
版权声明:本文为博主牟云飞原创文章,未经博主同意不得转载. https://blog.csdn.net/myfmyfmyfmyf/article/details/32690757 QXOutStrea ...

Spark SQL Hive Support Demo

Spark SQL Hive Support Demo的更多相关文章

随机推荐

热门专题