spark sqljdbc链接hive

2024-08-31

Java采用JDBC的方式连接Hive（SparkSQL）

前两天,由于系统的架构设计的原因,想通过Java直接访问Hive数据库,对于我这个Java以及Hadoop平台的菜鸟来说,的确是困难重重,不过,还好是搞定了.感觉也不是很麻烦.这篇文章,作为一个感想记录下来.( 作者:yangyang8848) 一.Hive的访问方式一般情况下,Hive是不能直接Java连接并访问的,后来出现来一个SparkSQL的东东,变得可以通过JDBC的方式访问连接.首先,我先介绍一些从Linux下访问的方法: 1.远程登录到Linux平台: 2.进入到hive数据库中

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解

引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)

原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录引言目录一环境选择 1集群机器安装图 2配置说明 3下载地址二集群的相关配置 1主机名更改以及主机和IP做相关映射更改主机名做主机和IP的关系映射 2ssh免登录 3防火墙关闭 4时间配置 5快捷键设置可选 6整体环境变量设置二Hadoop的环境搭建 1JDK配置 2hadoop配置 21 文件准备 22 环境配置 23 修改配置文件 231 修改 core-si

Spark整合HBase,Hive

背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场景需求1:使用spark直接读取HBASE表编写提交脚本: export SPARK2_HOME=/var/lib/hadoop-hdfs/spark--bin-hadoop2. export HBASE_LIB_HOME=/opt/cloudera/parcels/CDH/lib/hbase $

python链接Hive

之前一直用thrift链接Hive,但在运行时总出现问题,一直报缺少模块的错误,装了这个模块,又报缺少那个模块,连了半天,全是泪啊! 原来thrift链接Hive的.py文件后续没人维护,是连不上的. 果断放弃thrift,直接用impala,哈哈,终于连上了,我那个兴奋啊,你懂的. 需要的亲们,直接拿去用吧. from impala.dbapi import connectconn = connect(host="10.1.2.72", port=10000,database=&qu

spark2.3.0 配置spark sql 操作hive

spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤如下: 1.启动hive的元数据服务 hive可以通过服务的形式对外提供元数据读写操作,通过简单的配置即可编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property><name>hive.metastore.uris</name>

Spark SQL与Hive on Spark的比较

简要介绍了SparkSQL与Hive on Spark的区别与联系一.关于Spark 简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题. 架构 Spark的架构如下图所示,主要包含四大组件:Driver.Master.Worker和Executor. Spark特点 Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问使用Scala语言编写部署模型单机模型:主要用来开发测试.特点:Driver.Mast

hive安装 jdbc链接hive

1. 下载hive安装包 2. 进入 conf 中 : cp hive-default.xml.template hive-site.xml, vi hive-site.xml 1)首行添加: <property> <name>beeline.hs2.connection.user</name> <value>hive</value></property><property> <name>beeline.

Spark SQL with Hive

前一篇文章是Spark SQL的入门篇Spark SQL初探,介绍了一些基础知识和API,可是离我们的日常使用还似乎差了一步之遥. 终结Shark的利用有2个: 1.和Spark程序的集成有诸多限制 2.Hive的优化器不是为Spark而设计的,计算模型的不同,使得Hive的优化器来优化Spark程序遇到了瓶颈. 这里看一下Spark SQL 的基础架构: Spark1.1公布后会支持Spark SQL CLI . Spark SQL的CLI会要求被连接到一个Hive Thrift Server

spark sql数据源--hive

使用的是idea编辑器 spark sql从hive中读取数据的步骤:1.引入hive的jar包 2.将hive-site.xml放到resource下 3.spark sql声明对hive的支持案例: def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName(s"${this.getClass.getSimpleName}") .master(

【HIVE & Spark】将hive引擎换成Spark，运行速度快！怎么换？请看本文

本教程仅仅是使用spark,能在hive用就行. 1.下载Spark; 2.WinSCP上传spark压缩包到虚拟机: 3.tar -zxvf spark-2.3.3-bin-without-hadoop -C /opt/programs/ 4. 1)配置Spark环境变量: 2)配置spark-env.sh 命令cp spark-env.sh.template spark-env.sh后vi spark-env.sh 末尾加上: export JAVA_HOME=/usr/java/jdk1.

Hive on Spark和Spark sql on Hive，你能分的清楚么

摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql on Hive有啥区别?>,作者:dayu_dls . 结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序.Hive和SparkSQL都不负责计算.Hive的默认执行引擎是mr,还可以运行在Spark和Tez.Spark可以连接多种数据源,然后

Spark链接hive时 “HikariCP” 问题

IDE本地调试和spark-shell调试报错: Caused by: org.datanucleus.exceptions.NucleusUserException: The connection pool plugin of type “HikariCP” was not found in the CLASSPATH! 需要将hive-site.xml 的 HikariCP 改成 dbcp <property> <name>datanucleus.connectionPooli

spark+hcatalog操作hive表及其数据

package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.udps.common.hcatalog.SerHCatOutputFormat; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.util.

spark sql 访问hive数据时找不mysql的解决方法

我尝试着在classpath中加n入mysql的驱动仍不行解决方法:在启动的时候加入参数--driver-class中加入mysql 驱动 [hadoop@master spark-1.0.1-bin-hadoop2]$ bin/spark-shell --driver-class-path lib/mysql-connector-java-5.1.30-bin.jar 总结:1.spark的版本必须编译的时候加上了hive 1.0.0预编译版没有加入hive 1.0.1是含有hive的2.

Spark:spark df插入hive表后小文件数量多，如何合并？

在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题. 一般情况下通过hive的参数设置: val conf = new SparkConf().setAppName("MySparkJob") //.setMaster("local[1]").setMaster("spark://172.21.7.10:7077").setJars(List("xxx.jar")).set(&qu

Spark SQL读取hive数据时报找不到mysql驱动

Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneCP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

R链接hive/oracle/mysql

Linux:R连接hive用的Rhive 1,重要 1,sudo R CMD javareconf 2,sudo R 3, 1+1 是否为2 3.1,>install.packages("rJava") >install.packages("Rserve") >install.packages("RUnit") 4,sudo R CMD INSTALL RHive_0.0-7.tar.gz 或取 5,install.packag

通过 Spark R 操作 Hive

作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala.R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server:而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一:当然R的执行效率确实不靠谱,因此还需要Java(Elasticsearch,Hadoop的原生语言)与Scala(Spark的原生语言)的帮助. R和python一样也是一个很好的胶水语言,在搜索引擎的实战中,我就是用R来完成了ES集群索引的全量/增量

Spark SQL 操作Hive 数据

Spark 2.0以前版本:val sparkConf = new SparkConf().setAppName("soyo") val spark = new SparkContext(sparkConf) Spark 2.0以后版本:(上面的写法兼容)直接用SparkSession:val spark = SparkSession .builder .appName("soyo") .getOrCreate() var

[Spark]Spark-sql与hive连接配置

一.在Mysql中配置hive数据库创建hive数据库,刷新root用户权限 create database hive; grant all on *.* to root@'; flush privileges; 修改hive目录下/bin/hivevim /usr/local/src/apache-hive-1.2.2-bin/bin/hive 修改前 # add Spark assembly jar to the classpath if [[ -n "$SPARK_HOME"

spark sqljdbc链接hive

热门专题