spark 读取hive中的数据

scala> import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.sql.hive.HiveContext

scala> val hiveContext = new HiveContext(sc)

//hive中的feigu数据库中表stud_info

scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd

scala> stud_infoRDD.take(5).foreach(line => println("code:"+line(0)+";name:"+line(1)))

code:stud_code;name:stud_name

code:2015101000;name:王进

code:2015101001;name:刘海

code:2015101002;name:张飞

code:2015101003;name:刘婷

spark载入数据到hive

两个文件

hadoop@master:~/wujiadong$ cat spark_stud_info.txt

wujiadong,26

ji,24

sun,27

xu,25

hadoop@master:~/wujiadong$ cat spark_stud_score.txt

wujiadong,90

ji,100

sun,99

xu,99

scala代码

scala> import org.apache.spark.sql.hive.HiveContext

scala> val hiveContext = new HiveContext(sc)

scala> hiveContext.sql("drop table if exists wujiadong.spark_stud_info")

scala> hiveContext.sql("create table if not exists wujiadong.spark_stud_info(name string,age int) row format delimited fields terminated by ','")

scala> hiveContext.sql("load data local inpath '/home/hadoop/wujiadong/spark_stud_info.txt' into table wujiadong.spark_stud_info");

scala> hiveContext.sql("drop table if exists wujiadong.spark_stud_score")

scala> hiveContext.sql("create table if not exists wujiadong.spark_stud_score(name string,score int) row format delimited fields terminated by ','")

scala> hiveContext.sql("load data local inpath '/home/hadoop/wujiadong/spark_stud_score.txt' into table wujiadong.spark_stud_score");

然后到hive中查询是否导入成功

hive> select * from spark_stud_info;

OK

wujiadong	26

ji	24

sun	27

xu	25

Time taken: 0.178 seconds, Fetched: 4 row(s)

hive> select * from spark_stud_score;

OK

wujiadong	90

ji	100

sun	99

xu	99

Time taken: 0.212 seconds, Fetched: 4 row(s)

//将两张表进行连接查询大于99分的

scala> val df = hiveContext.sql("select sss.name,sss.score from wujiadong.spark_stud_info ssi join wujiadong.spark_stud_score sss on ssi.name=sss.name where sss.score > 99")

scala> df.show()

17/03/06 22:30:37 INFO FileInputFormat: Total input paths to process : 1

17/03/06 22:30:38 INFO FileInputFormat: Total input paths to process : 1

+----+-----+

|name|score|

+----+-----+

|  ji|  100|

+----+-----+

//将df中数据保存到表result_stu表中

scala> hiveContext.sql("drop table if exists wujiadong.result_stud")

scala> df.saveAsTable("wujiadong.result_stu")

//然后针对表result_stu直接创建dataframe

//Hive中查看

hive> select * from result_stu;

OK

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

ji	100

Time taken: 0.252 seconds, Fetched: 1 row(s)

参考资料

http://dblab.xmu.edu.cn/blog/1086-2/

参考资料

http://blog.csdn.net/ggz631047367/article/details/50445877

spark SQL学习（spark连接hive）的更多相关文章

spark SQL学习（认识spark SQL）
spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...
spark SQL学习（spark连接 mysql）
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark ...
spark SQL学习（案例-统计每日销售）
需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...
spark SQL学习（案例-统计每日uv）
需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...
spark SQL学习（综合案例-日志分析）
日志分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala&g ...
spark SQL学习（数据源之json）
准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...
spark SQL学习（数据源之parquet）
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...
spark SQL学习（load和save操作）
load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong ...
IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...

随机推荐

textarea文本输入区内实现换行
在文本间输入即可成功换行 <textarea class="mytextarea">1.第一行 2.第二行 </textarea>
ChromeExtension 写一个extension
demo: https://github.com/rayshen/iExtensionDemo 使用: 1.打开扩展页面:chrome://extensions/ 2. 里面包含文件的结构是这样: 1 ...
PHP 创建中文目录的情况
因为一个作业需要创建一些中文的目录,其实主要还是考虑一下编码问题. 首先确认下系统环境是什么编码,如果是gbk或者GB2312那就需要转下码,还有些特殊字符,就需要有个特殊的写法. iconv('UT ...
剑指Offer——连续子数组的最大和
题目描述: HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学.今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决.但是,如果向 ...
GraphicsMagick 1.3.25 Linux安装部署
1.安装相关依赖包 yum install -y gcc libpng libjpeg libpng-devel libjpeg-devel ghostscript libtiff libtiff-d ...
Preparing Olympiad---cf550B（DFS或者状态压缩模板）
比赛链接:http://codeforces.com/problemset/problem/550/B 给你n个数,选出来只是2个然后求他们的和在L和R的区间内,并且选出来的数中最大值和最小值的差不得 ...
Proud Merchants---hdu3466（有01背包）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3466 与顺序有关的01背包. 如果一个物品p = 5,q = 7,一个物品p = 5,q = 9,如果 ...
大量高清文字版PDF编程书籍下载
下载地址 :http://zhaojucai.com/download.html 文件夹: 数学之美(第二版) Java编程思想(第4版) 图灵程序设计丛书:Python基础教程(第2版)(修订版) ...
010-Shell 输入/输出重定向
大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回到您的终端.一个命令通常从一个叫标准输入的地方读取输入,默认情况下,这恰好是你的终端.同样,一个命令通常将其输出写入到标准输出,默 ...
简单的SQL注入学习
引贴: http://blog.163.com/lucia_gagaga/blog/static/26476801920168184648754/ 首先需要编写一个php页面,讲php页面放入/opt ...

spark SQL学习（spark连接hive）

spark 读取hive中的数据

spark载入数据到hive

两个文件

scala代码

spark SQL学习（spark连接hive）的更多相关文章

随机推荐

热门专题