[Spark SQL_1] Spark SQL 配置

0. 说明

　　Spark SQL 的配置基于 Spark 集群搭建 && Hive 的安装&配置

1. 简介

　　Spark SQL 是构建在 Spark Core 模块之上的四大模块之一，提供 DataFrame 等丰富 API，可以采用传统的 SQL 语句进行数学计算。运行期间，会通过 Spark 查询优化器翻译产物理执行计划，并行计算后输出结果。底层计算原理仍然采用 RDD 计算实现。

2. Spark 与 Hive 集成

　　2.1 在 Spark 配置目录下创建指向 [hive-site.xml ] 文件的同名符号链接

cd /soft/spark/conf

ln -s /soft/hive/conf/hive-site.xml hive-site.xml

　　2.2 复制 Hive 元数据库使用的驱动程序到 Spark 的 jars 目录下，比如 MySQL

cd /soft/hive/lib/

cp mysql-connector-java-5.1..jar /soft/spark/jars

　　2.3 关闭 Hive 配置文件 [hive-site.xml] 文件中版本检查，否则会报版本不一致异常

[centos@s101 ~]$ cd /soft/hive/conf/

[centos@s101 /soft/hive/conf]$ sudo vi hive-site.xml

  <property>

    <name>hive.metastore.schema.verification</name>

    <value>false</value>

  </property>

3. 在 Spark shell 中访问 Hive

　　3.0 开启 ZooKeeper & HDFS & Spark 集群

　　略

　　3.1 启动 spark-shell，观察输出内容，打印 Hive 配置信息

spark-shell --master spark://s101:7077

　　若成功则如下图所示

　　3.2 在 Scala 命令行执行如下命令

# 显示所有数据库

spark.sql("show databases").show()

# 使用指定数据库

spark.sql("use mydb").show() 

# 显示当前数据库中的数据表

spark.sql("show tables").show()

# 查询 customers 表数据

spark.sql("select * from customers").show(1000,false)

# 构造 RDD

val rdd1= sc.parallelize(Array((1,"tom1",12) ,(2,"tom2",13) ,(2,"tom3",14) ))

# 转换 RDD 成DataFrame

val df = rdd1.toDF("id" , "name" , "age")

# 通过 DataFrame select API 实现 SQL 中的 select 语句

df.select("id").show()

# 注册临时表

df.registerTempTable("_cust")

# 通过临时表进行数据操纵

spark.sql("select * from _cust").show(1000 ,false) ;

[Spark SQL_1] Spark SQL 配置的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
Hive on Spark和Spark sql on Hive，你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
spark集群安装配置
spark集群安装配置一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoo ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
[Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子
[Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子 $cat people.json {"name":" ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
Spark记录-spark-env.sh配置
环境变量含义 SPARK_MASTER_IP master实例绑定的IP地址,例如,绑定到一个公网IP SPARK_MASTER_PORT mater实例绑定的端口(默认7077) SPARK_MA ...
Spark记录-Spark on mesos配置
1.安装mesos #用centos6的源yum安装 # rpm -Uvh http://repos.mesosphere.io/el/6/noarch/RPMS/mesosphere-el-repo ...
Spark 性能相关参数配置详解－任务调度篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化. 由于篇 ...

随机推荐

mysqldump主要参数探究
在数据库的日常维护中,对于数据量小的备份,我们常常采用的是逻辑备份,也就是使用mysqldump导出.数据量比较大的备份会使用percona的xtrabackup,关于xtrabackup工具的使用以 ...
Bootstrap in ASP.NET MVC 5
一,新建ASP.NET MVC 5 项目 Bootstrap 文件分布引入到页面 1.定义.注意:不要包含有.min.的文件名称,会被忽略,因为在发布的时候编译器会加载min版的文件 2.在母版页中 ...
快速搭建一个“微视”类短视频 App
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云视频发表于云+社区专栏关注公众号"腾讯云视频",一键获取技术干货 | 优惠活动 | 视频方案 " ...
jdbc mysql driver 6.0.2
url = jdbc:mysql://localhost:3306/hibernate?useUnicode=true&characterEncoding=UTF-8&useLegac ...
【JS点滴】substring和substr以及slice和splice的用法和区别。
那么就由一道笔试题引入吧,已知有字符串a=”get-element-by-id”,写一个function将其转化成驼峰表示法”getElementById”: var a = "get-el ...
Visual studio 2017 Installer 打包.netframework
前几步和网上其他教程一样的.主要是把.net framework 打包进安装程序里,如果选的是“从与我的应用程序相同的位置下载系统必备组件”,会提示 ERROR: 要在“系统必备”对话框中启用“从与我 ...
t3用户-角色-权限hibernate经典配置
用户-角色-权限hibernate经典配置. 既然有人问起,我就写下说明吧.在文章中间的配置文件那里.权当回忆一下,也帮助更多人.这是以前学校时写的,没有注释.都是贴的代码笔记.看到的莫要见怪.欢迎学 ...
Java - equals方法
java提高篇(十三)-----equals()方法总结 equal和==区别 ==比较对象基于内存引用,两个引用完全相同返回true Java 语言里的 equals方法其实是交给开发者去覆写的,让 ...
POJ2955(KB22-C 区间DP)
Brackets Time Limit: 1000MSMemory Limit: 65536K Total Submissions: 7823Accepted: 4151 Description We ...
Flask 中路由系统
1. @app.route() 装饰器中的参数 methods : 当前 url 地址,允许访问的请求方式 @app.route("/info", methods=["G ...

[Spark SQL_1] Spark SQL 配置

0. 说明

1. 简介

2. Spark 与 Hive 集成

2.1 在 Spark 配置目录下创建指向 [hive-site.xml ] 文件的同名符号链接

2.2 复制 Hive 元数据库使用的驱动程序到 Spark 的 jars 目录下，比如 MySQL

2.3 关闭 Hive 配置文件 [hive-site.xml] 文件中版本检查，否则会报版本不一致异常

3. 在 Spark shell 中访问 Hive

3.0 开启 ZooKeeper & HDFS & Spark 集群

3.1 启动 spark-shell，观察输出内容，打印 Hive 配置信息

3.2 在 Scala 命令行执行如下命令

[Spark SQL_1] Spark SQL 配置的更多相关文章

随机推荐

热门专题

　　2.1 在 Spark 配置目录下创建指向 [hive-site.xml ] 文件的同名符号链接

　　2.2 复制 Hive 元数据库使用的驱动程序到 Spark 的 jars 目录下，比如 MySQL

　　2.3 关闭 Hive 配置文件 [hive-site.xml] 文件中版本检查，否则会报版本不一致异常

　　3.0 开启 ZooKeeper & HDFS & Spark 集群

　　3.1 启动 spark-shell，观察输出内容，打印 Hive 配置信息

　　3.2 在 Scala 命令行执行如下命令