spark sql 对接 HDFS

上一篇博客我向大家介绍了如何快速地搭建spark run on standalone，下面我将介绍saprk sql 如何对接 hdfs

我们知道，在spark shell 中操作hdfs 上的数据是很方便的，但是操作也未免过于繁琐，幸好spark 还想用户提供另外两种操作 spark sql 的方式

一 spark-sql

启动方式也比较简单

如果不添加 hive.metastore.warehouse.dir hiveconf 这个参数，则启动的spark sql 是基于本地文件的，默认为 file:/user/hive/warehouse（这种模式我个人是不大建议的）

/opt/spark-1.3.-bin-hadoop2./bin/spark-sql --master spark://ubuntu1:7800  --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050"

--master 这个是必须的，否则后面执行的sql 都只会在当前一个进程计算，性能非常差，简单测试测试sql 语句倒还行

后面填写spark master 的URL

--driver-cores 这个参数是指定运行是CPU的最大核数

--driver-java-options 这个是启动sparak sql 服务时，需要添加的jvm 参数， spark.driver.port 是指定一个端口，具体什么用途，我还不是非常了解，望告知！

启动的spark sql 基于hdfs 的方法

bin/spark-sql --master spark://ubuntu1:7800  --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050"  --hiveconf "hive.metastore.warehouse.dir=hdfs://ubuntu1:9000/user/hive/warehouse"

--hiveconf 参数是添加加载hive 模块时，需要调整的参数， hive.metastore.warehouse 则是通知hive 模块，后面spark sql 的数据都是存储在HDFS 中。其中hdfs://ubuntu1:9000 是HDFS 的URL

注意：

在spark 2.0.1 中，--hiveconf "hive.metastore.warehouse" 参数已经不再生效，用户应该使用

--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse 命令进行代替

正确登陆spark-sql 后，就能像在hive 中执行那样，直接输入sql 语句即可

测试一下

spark-sql> create table test (id int , name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE ;

向表中导入本地文件

LOAD DATA LOCAL INPATH '/opt/spark-1.3.1-bin-hadoop2.6/test.csv' INTO TABLE test;

向表中导入HDFS 文件

LOAD DATA INPATH 'hdfs://ubuntu1:9000/user/hive/warehouse/test.csv' INTO TABLE test;

两个test.csv 文件都是

|chen

|fool

查询

select * from test;

然后它就打一大堆的执行信息，最后它会显示执行成功了。

我个人觉得这个方法还不够赞，因为spark 还提供了另一种更犀利操作sql 的方法

二 thriftserver

由于现在hive 的metastore 并没有使用第三方数据库，所以只能支持一个用户操作元数据，在退出刚才的spark-sql 后，我们启动thriftserver

/opt/test_spark/spark-1.3.-bin-hadoop2./sbin/start-thriftserver.sh --master spark://ubuntu1:7800    --driver-java-options "-Dspark.driver.port=4050" --hiveconf "hive.server2.thrift.port=11000"  --hiveconf "hive.metastore.warehouse.dir=hdfs://ubuntu1:9000/user/hive/warehouse"

参数和上面的相同，我就不再一一解释了，只有

--hiveconf hive.server2.thrift.port=11000 与上面不同，这个参数是指定thriftserver 端口，默认是10000

启动thriftserver 后，我们可以通过netstat 查看端口是否被正常启动了

netstat -nap |grep

netstat -nap |grep

然后我们在登陆 beeline 界面

/opt/test_spark/spark-1.3.-bin-hadoop2./bin/beeline --hiveconf hive.server2.thrift.port= --hiveconf "hive.metastore.warehouse.dir=hdfs://ubuntu1:9000/user/hive/warehouse"

登陆后，我们需要先连接上 thriftserver

!connect jdbc:hive2://localhost:11000

连接后，我们就能自由操作数据了

show tables;

+------------+--------------+
| tableName | isTemporary |
+------------+--------------+
| test | false |
+------------+--------------+

这个是刚才在spark-sql 上建立的表，并且刚才的数据也在，我们利用它来测试一下

select * from test;

+-----+-------+
| id | name |
+-----+-------+
| 1 | chen |
| 2 | fool |
| 1 | chen |
| 2 | fool |
+-----+-------+

输入非常正常，并且操作界面也非常的清爽。

退出这个beeline 界面，命令比较奇怪

!quit

大家也可以通过下面命令获得帮助信息

!help

spark sql 对接 HDFS的更多相关文章

通过spark sql 将 hdfs上文件导入到mongodb
功能:通过spark sql 将hdfs 中文件导入到mongdo 所需jar包有:mongo-spark-connector_2.11-2.1.2.jar.mongo-java-driver-3.8 ...
spark sql 的metastore 对接 postgresql
本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译,参考:http://www.cnblogs.com/ ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
1. Spark SQL概述
1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用它是将Hive SQL转换成 ...
第1章 Spark SQL概述
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
spark streaming 对接kafka记录
spark streaming 对接kafka 有两种方式: 参考: http://group.jobbole.com/15559/ http://blog.csdn.net/kwu_ganymede ...

随机推荐

九度OJ 1135：字符串排序（排序）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:1559 解决:807 题目描述: 先输入你要输入的字符串的个数.然后换行输入该组字符串.每个字符串以回车结束,每个字符串少于一百个字符. 如 ...
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件.它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的.为了容错,文件的所有数据块都会有副本.每个文件的数据块大小和副本 ...
Java，获取文件的Base64字符串，解码Base64字符串还原文件
在jdk1.8以前,获取文件Base64字符串需要用到第三方库,从1.8开始,Java中引入了Base64相关的类以下是代码示例获取文件的Base64编码字符串 import java.io.Fi ...
access 连接数据库
前提条件如果没有安装office的话,需要安装引擎安装了office就不用安装引擎连接数据库 Dim plMydb As Microsoft.Office.Interop.Access.Dao. ...
WebViewJavascriptBridge的简单应用
原文链接:http://www.jianshu.com/p/ca496cb680fe前言当下,很多APP里面都会有HTML5网页,我们除了简单的用WebView加载显示外,很多情况下,我们还需要和W ...
maven目录结构
groupId的值是项目的包名 artifactId的值是模块名,建议使用项目名
JavaWeb----文件的上传和下载
一.开发环境搭建创建一个FileUploadAndDownLoad项目,加入Apache的commons-fileupload文件上传组件的相关Jar包,如下图所示: 二.实现文件上传 2.1.文件 ...
Microsoft visual studio关闭安全检查
在用Microsoft visual studio进行代码编写时,使用到列如sprintlf这种比较旧的指令,需要关闭Microsoft visual studio的安全检查: 设置预处理选项:a. ...
杂项：UI
ylbtech-杂项:UI 1.返回顶部 1. UI即User Interface(用户界面)的简称.泛指用户的操作界面,包含移动APP,网页,智能穿戴设备等.UI设计主要指界面的样式,美观程度.而使 ...
SecureCRT rz上传文件失败
SecureCRT 将 Windows 上的文件传至 Linux 端,小的文件没有问题能够正常上传,但是对于几百M的文件往往上传过程中失败. 解决办法:使用 rz -be,并且去掉对话框中" ...

spark sql 对接 HDFS

spark sql 对接 HDFS的更多相关文章

随机推荐

热门专题