hive 改成spark引擎 sparksql会报了错

2024-10-22

【HIVE & Spark】将hive引擎换成Spark，运行速度快！怎么换？请看本文

本教程仅仅是使用spark,能在hive用就行. 1.下载Spark; 2.WinSCP上传spark压缩包到虚拟机: 3.tar -zxvf spark-2.3.3-bin-without-hadoop -C /opt/programs/ 4. 1)配置Spark环境变量: 2)配置spark-env.sh 命令cp spark-env.sh.template spark-env.sh后vi spark-env.sh 末尾加上: export JAVA_HOME=/usr/java/jdk1.

hive使用spark引擎的几种情况

使用spark引擎查询hive有以下几种方式:1>使用spark-sql(spark sql cli)2>使用spark-thrift提交查询sql3>使用hive on spark(即hive本身设置执行引擎为spark)针对第一种情况:1>ambari 已经支持,不需要特殊配置:2>cdh不支持spark sql cli,原因是cdh自带的spark,spark-sql和spark-R是阉割版本的,如果需要使用spark sql cli,需要下载原生的编译好的spark包

Hive On Spark和SparkSQL

SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案.Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL.这是Spark官方Databricks的项目,Spark项目本身主推的SQL实现.Hive On Spark比SparkSQL稍晚.Hive原本是没有很好支持MapReduce之外的引擎的,而Hive On Tez项目让Hive得以支持和Spark近似的Planning结构(非MapReduce的DAG).所以在此基础上

hive on spark VS SparkSQL VS hive on tez

http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51448188 hive on spark VS SparkSQL VS hive on tez 前一篇已经弄好了SparkSQL,SparkSQL也有thriftserver服务,这里说说为啥还选择搞hive-on-spark: SparkSQL-Thriftserver所有结果全部内存,快是快,但

hive中使用spark执行引擎的常用参数

set hive.execution.engine=spark;set hive.exec.parallel=true;set hive.exec.parallel.thread.number=8;set hive.exec.compress.intermediate=true;set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;set hive.intermediate.compre

Spark记录-SparkSql官方文档中文翻译（部分转载）

1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎. 2 DataFrames DataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合.DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Python中的一个data frame.DataFrames可以通过多种数据构造,例如:结构化的数据文件.hive中的表

存算分离下写性能提升10倍以上，EMR Spark引擎是如何做到的？

引言随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多. 腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark.Hbase.Presto.Flink.Druid 等大数据框架. 近期,在支持一位 EMR 客户时,遇到典型的存储计算分离应用场景.客户使

基于Spark和SparkSQL的NetFlow流量的初步分析——scala语言

基于Spark和SparkSQL的NetFlow流量的初步分析--scala语言标签: NetFlow Spark SparkSQL 本文主要是介绍如何使用Spark做一些简单的NetFlow数据的处理,是基于 IntelliJ IDEA开发Spark 的Maven项目,本文会介绍一些简单的NetFlow基础知识,以及如何在 IntelliJ IDEA 上开发Maven项目,用Scala 写的一些简单的NetFlow字段分析统计的代码,包括 SparkCore和SparkSQL两个版本的. 初

Kylin引入Spark引擎

1 引入Spark引擎 Kylin v2开始引入了Spark引擎,可以在构建Cube步骤中替换MapReduce. 关于配置spark引擎的文档,下面给出官方链接以便查阅:http://kylin.apache.org/docs20/tutorial/cube_spark.html 以下是配置步骤:1.在kylin的安装目录下,新建目录hadoop_conf mkdir $KYLIN_HOME/hadoop_conf 2.将core-site.xml,hdfs-site.xml,hbase-s

Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）

#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spark1.6.0) #tar zxvf spark-2.2.0.tgz ---解压 #cd spark-2.2.0/dev ##修改make-distribution.sh的MVN路径为$M2_HO

Spark系列-SparkSQL实战

Spark系列-初体验(数据准备篇) Spark系列-核心概念 Spark系列-SparkSQL 之前系统的计算大部分都是基于Kettle + Hive的方式,但是因为最近数据暴涨,很多Job的执行时间超过了1个小时,即使是在优化了HiveQL的情况下也有超过30分钟,所以近期把计算引擎从Hive变更为Spark. 普通的简单Job就使用SparkSQL来计算,数据流是经过spark计算,把结果插入到Mysql中在项目中新建三个类,第一个Logger类用于日志的输出 # coding=utf-

spark运行信息及报错问题解决集锦

错误1: ERROR client.RemoteDriver: Failed to start SparkContext: java.lang.IllegalArgumentException: Executor memory 456340275 must be at least 471859200. Please increase executor memory using the --executor-memory option or spark.executor.memory in Spa

中文的csv文件的编码改成utf-8的方法

直奔主题:把包含中文的csv文件的编码改成utf-8的方法: https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python 啰嗦几句: 在用pandas读取hive导出的csv文件时,经常会遇到类似UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12这样的问题,这种问题是因为导出的csv文件包含中文,且这些

把sql server 2000的用户表的所有者改成dbo

怎么样把sql server 2000的用户表的所有者,改成dbo,而不是用户名. 推荐使用下面介绍的第二种方法,执行以下查询便可以了.sp_configure 'allow updates','1' go reconfigure with override go update sysobjects set uid=1 where uid<>1 go sp_configure 'allow updates','0' go reconfigure with override 注意:上面的查询语句

Cocos2dx 3.1.1 将一个2.X的项目改成3.1版本

最近在论坛上下载到了一个Cocos2dx的单机跑酷例子, 也不知道是2.x版的, 花了一天时间试着把他改成3.1.1的试试, 现在已经可以顺利编译的, 但是还是有Heap Free的问题,调试了好几天,真心累了. 代码地址如下: https://github.com/AdoBeatTheWorld/waytomobile/tree/master/projects/RunPiggy 问题列表如下: 1 error C2064: 项不会计算为接受 2 个参数的函数这个是一个回调函数的问题, #de

kafka-connect-hdfs连接hadoop hdfs时候，竟然是单点的，太可怕了。。。果断改成HA

2017-08-16 11:57:28,237 WARN [org.apache.hadoop.hdfs.LeaseRenewer][458] - <Failed to renew lease for [DFSClient_NONMAPREDUCE_-1756242047_26] for 30 seconds. Will retry shortly ...> org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyE

MySQL slow_log表不能修改成innodb引擎

背景从mysql.slow_log 获取慢查询日志很慢,该表是csv表,没有索引. 想添加索引来加速访问,而csv引擎不能添加索引(csv引擎存储是以逗号分割的文本来存储的),只能改存储引擎来添加索引了 mysql.slow_log表能改成myisam,不能改成innodb

Qt动态库静态库的创建、使用、多级库依赖、动态库改成静态库等详细说明

本文描述的是windows系统下,通过qtcreator在pro文件中添加动态库与静态库的方法: 1.添加动态库(直接添加动态库文件.dll,非子项目) 通过qtcreator创建动态库的方法就不在此处赘述了. 唯一值得强调的是动态库与静态库的创建在pro文件中配置的区别在于静态库多了 CONFIG += staticlib ,如下图所示(稍安勿躁,以下示例的工程代码最后会统一打包上传) 注:mingw32编译器生成的动态库文件包括一个***.dll和一个***.a文件(这里的.a文件为导入库,

Spark Sql数仓报-Metastore contains multiple versions

Spark版本为2.1.0,Hadoop版本为2.7.1,元数据存储在mysql中,异常信息如下: Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient at org.apache.hadoop.hive.ql.session.

Oracle中表列由VARCHAR2类型改成CLOB

情景原来表中的列定义成VARCHAR2类型,众所周知,VARCHAR2类型最大支持长度为4000.假设因为业务须要.想把此列转换为CLOB类型,在Oracle中直接通过ALTER语句转换是行不通的.以下依据详细事例解说在Oracle数据库中怎样把表列由VARCHAR2类型转换为CLOB类型. 演示样例准备 1. 新建两张张表TB_WITHOUT_DATA(此VARCHAR2列不包括数据)和TB_WITH_DATA(此Varchar2列包括数据) create table TB_WITHOUT_

hive 改成spark引擎 sparksql会报了错

热门专题