开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用

在Hadoop集群上的Hive配置

1. 系统环境Oracle VM VirtualBoxUbuntu 16.04Hadoop 2.7.4Java 1.8.0_111 hadoop集群master:192.168.19.128slave1:192.168.19.129slave2:192.168.19.130 MySQL安装在master机器上,hive服务器也安装在master上 hive版本: https://mirrors.cnnic.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-b…

Hive JDBC:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous

今天使用JDBC来操作Hive时,首先启动了hive远程服务模式:hiveserver2 &(表示后台运行),然后到eclipse中运行程序时出现错误: java.sql.SQLException: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.182.11:10000/default: Failed to open new session: java.lang.RuntimeException: org.…

基于cdh5.10.x hadoop版本的apache源码编译安装spark

参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进制安装包存在未知问题,如果直接下载spark二进制安装文件,配置完成后会发现启动spark及相关使用均会报错. 编译spark需要联网,spark使用scala语言编写,所以运行spark需要scala语言,上一步已经安装了scala,scala使用java编写,所以安装scala需要jdk支持,上…

Hive执行count函数失败，Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException)

Hive执行count函数失败 1.现象: 0: jdbc:hive2://192.168.137.12:10000> select count(*) from emp; INFO : Number of reduce tasks determined at compile time: 1 INFO : In order to change the average load for a reducer (in bytes): INFO : set hive.exec.reducers.bytes…

开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用

一,开源软件版本: hadoop版本 : hadoop-2.7.5 hive版本 :apache-hive-2.1.1 spark版本: spark-2.3.0-bin-hadoop2.7 各个版本到官网下载就ok,注意的是版本之间的匹配机器介绍,三台机器,第一台canal1为主节点+工作节点,另两台为工作节点: 10.40.20.42 canal110.40.20.43 canal210.40.20.44 canal3 二.搭建hadoop集群 1.配置环境变量 vim /etc/prof…

Hadoop第9周练习—Hive部署测试（含MySql部署）

1.1 2 :搭建Hive环境内容 2.2 3 运行环境说明 1.1 硬软件环境线程,主频2.2G,6G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:CentOS 64位,单核,1G内存 l JDK:1.7.0_55 64 bit l Hadoop:1.1.2 1.2 机器网络环境个namenode.2个datanode,其中节点之间可以相互ping通.节点IP地址和主机名分布如下: 序号 IP地址机器…

Apache Hive 基本理论与安装指南

一.Hive的基本理论 Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器.编译器.执行器.优化器.解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执行,优化器是在执行过程中进行优化.这里的代码就是Hadoop中的MapReduce,这里的MapReduce通过Hive往HDFS上执行.分析.查询数据. 上图展示hql的执行过程,一个hql脚本首先到hive的解释器,转化为MapReduce(当然例如“select * from table_na…

【大数据系列】apache hive 官方文档翻译

GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 2017 本文档由Confluence管理员创建,2017年6月15日由Lefty Leverenz最后做的修改. Table of Contents 表格内容包含 Installation and Configuration 安装和配置 Running HiveServer2 and Beeli…

Apache Hive 安装文档

简介: Apache hive 是基于 Hadoop 的一个开源的数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,将 SQL 语句转换为 MapReduce 任务执行. Apache hive 数据库仓库工具管理着两类数据:MetaData ( 这里我们存储在远程 MySQL DataBase 中 ).Data 存储在 HDFS 之上! 一.MySQL # http://www.cnblogs.com/wangxiaoqiangs/p/5336048.htm…

大数据Hadoop生态圈：Pig和Hive

前言 Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台. Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口,这一点和FaceBook开源的Hive一样简洁,清晰,易上手! 一.Pig概述 Pig包括两部分 1:用于描述数据流的语言,称为 Pig Latin (拉丁猪,个人翻译) 2:用于运行PigLatin程序的执行环境 .一个是本地的单…

Apache Hive （四）Hive的连接3种连接方式

转自:https://www.cnblogs.com/qingyunzong/p/8715925.html 一.CLI连接进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/hadoop/apps/apache-hive-2.3.3-bin/lib/log4j-slf4j-i…

Apache Hive （二）Hive安装

转自:https://www.cnblogs.com/qingyunzong/p/8708057.html Hive的下载下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1.使用MySQL做为Hive的元数据库,所以先安装MySQL. MySql安装过程http://www.cnblogs.com/qingyunzong/p/8294876.htm…

Apache Hive 简介及安装

简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能. 本质是将 SQL 转换为 MapReduce 程序. 主要用途:用来做离线数据分析,比直接用 MapReduce 开发效率更高.Hive 利用 HDFS 存储数据,利用 MapReduce 查询分析数据. 数据库和数据仓库的区别在于: 数据库是面向事务的设计,数据仓库是面向主题设计的. 数据库一般存储业务数据,数据仓库存储的一般是历史数据. 数据库设计是尽量避免冗余…

【Hadoop离线基础总结】Hive调优手段

Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不必使用MapReduce计算.在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台.(原则就是能不用MapReduce就不用MapReduce) 比如以下这几种情况: SELECT * FROM score; SELECT s_score FROM s…

Ubuntu16.04安装apache hive

0.常规配置操作可参照以下网址: 0.1 Ubuntu安装hive,并配置mysql作为元数据库http://dblab.xmu.edu.cn/blog/install-hive/ ------以下为学习笔记及错误记录,与常规操作略有差异,供参考------- 1.官网下载apache-hive-2.3.7-bin.tar.gz:https://mirror.bit.edu.cn/apache/hive/ 2.移动到Ubuntu里的"下载"文件夹 3.解压到指定路径/usr/local…

Mac OS X上搭建伪分布式CDH版本Hadoop开发环境

最近在研究数据挖掘相关的东西,在本地 Mac 环境搭建了一套伪分布式的 hadoop 开发环境,采用CDH发行版本,省时省心. 参考来源 How-to: Install CDH on Mac OSX 10.9 Mavericks 官网这篇文章有的地方格式不对,部分链接也失效,运行时还会有一些问题,所以这里重新记录如下. 安装 JDK JDK 1.8 下载地址安装完成后路径应该是 /Library/Java/JavaVirtualMachines/jdk1.8.x_xx.jdk/Contents…

转载----五种开源协议(GPL,LGPL,BSD,MIT,Apache)

原文地址:https://www.oschina.net/question/54100_9455 五种开源协议(GPL,LGPL,BSD,MIT,Apache) 什么是许可协议? 什么是许可,当你为你的产品签发许可,你是在出让自己的权利,不过,你仍然拥有版权和专利(如果申请了的话),许可的目的是,向使用你产品的人提供一定的权限. 不管产品是免费向公众分发,还是出售,制定一份许可协议非常有用,否则,对于前者,你相当于放弃了自己所有的权利,任何人都没有义务表明你的原始作者身份,对于后者,你将不得…

Apache Hive处理数据示例

继上一篇文章介绍如何使用Pig处理HDFS上的数据,本文将介绍使用Apache Hive进行数据查询和处理. Apache Hive简介首先Hive是一款数据仓库软件使用HiveQL来结构化和查询存放的数据执行环境:MapReduce, Tez, Spark 数据存放:HDFS, HBase 使用场景:数据挖掘和分析,机器学习,即席查询等 Hive使用示例还是使用passwd作为操作文件 beeline> !quit [cloudera@quickstart ~]$ hdfs dfs -…

解决kylin sync table报错：MetaException(message:java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found

在kylin-gui中sync表default.customer_visit时报错: -- ::, ERROR [http-bio--exec-] controller.BasicController: : java.lang.RuntimeException: cannot get HiveTableMeta at org.apache.kylin.source.hive.HiveSourceTableLoader.extractHiveTables(HiveSourceTableLoader…

Spring boot with Apache Hive

5.29.1. Maven <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jdbc</artifactId> </dependency> <dependency> <groupId>org.springframework.data</groupId> <art…

Apache Hive 建表操作的简单描述

客户端连接hive [root@bigdata-02 bin]# ./beeline Beeline version by Apache Hive beeline: Connecting : Enter username :: root Enter password :: ****** Connected ) Driver: Hive JDBC (version ) Transaction isolation: TRANSACTION_REPEAtable_READ : jdbc:hive2::…

《hadoop权威指南》关于hive的第一个小例子的演示

本文是<hadoop权威指南>关于hive的小例子,通过这个例子可以很好地看出来hive是个什么东西. 前提是已经配置好hive的远程连接版本的环境,我是用了MYSQL数据库保存元数据. 环境要求: -配置好了Hadoop的HDFS文件系统,启动hdfs和yarn -配置好了hive的远程连接模式 -配置好了MySQL用于metadata的储存输入文件下载: https://github.com/tomwhite/hadoop-book/blob/master/input/ncdc/micr…

【Hadoop离线基础总结】Hive的基本操作

Hive的基本操作创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site.xml配置文件中的一个属性指定 <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> 创建数据库并指定hdfs存储位置:CREATE TABLE myhive2…

系统解析Apache Hive

Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好.延展性好.高容错等特点,多应用于离线数仓建设. 1. Hive架构存储:Hive底层存储依赖于hdfs,因此也支持hdfs所支持的数据存储格式,如text.json.parquet等.当我们将一个文件映射为Hive中一张表时,只需在建表的时告诉Hive,数据中的列名.列分隔符.行分隔符等,Hive就可以自动解析数据. 支持多种压缩格式:bzip2.g…

基于hadoop的数据仓库工具：Hive概述

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机…

PyCharm 3.0 发布，提供免费开源版本

PyCharm 发布最新的 3.0 版本,该版本新特性详见: http://www.jetbrains.com/pycharm/whatsnew/index.html 该版本最主要的是提供了免费开源的版本,开源版本提供的功能包括: 智能编辑器,支持代码自动完成和分析自动化代码重构图形化调试器和单元测试支持内建版本控制集成等等开源版本和专业版的比较请看: http://www.jetbrains.com/pycharm/features/editions_comparison_matrix…

Hbase 配置问题（ERROR: org.apache.hadoop.hbase.PleaseHoldException: org.apache.hadoop.hbase.PleaseHoldEx）

ERROR: org.apache.hadoop.hbase.PleaseHoldException: org.apache.hadoop.hbase.PleaseHoldException: Master is initiling 1.首先查看日志:hbase-hbase-master-master.log 2.发现zookeeper.clientcnxn有问题,所以为查看各节点的日志 3.发现连接的是本地的zookeeper(127.0.0.1),这时发现本地没有zookeeper,所以怀疑…

【开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用】的更多相关文章

在Hadoop集群上的Hive配置

Hive JDBC:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous

基于cdh5.10.x hadoop版本的apache源码编译安装spark

Hive执行count函数失败，Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException)

开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用

Hadoop第9周练习—Hive部署测试（含MySql部署）

Apache Hive 基本理论与安装指南

【大数据系列】apache hive 官方文档翻译

Apache Hive 安装文档

大数据Hadoop生态圈：Pig和Hive

Apache Hive （四）Hive的连接3种连接方式

Apache Hive （二）Hive安装

Apache Hive 简介及安装

【Hadoop离线基础总结】Hive调优手段

Ubuntu16.04安装apache hive

Mac OS X上搭建伪分布式CDH版本Hadoop开发环境

转载----五种开源协议(GPL,LGPL,BSD,MIT,Apache)

Apache Hive处理数据示例

解决kylin sync table报错：MetaException(message:java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found

Spring boot with Apache Hive

Apache Hive 建表操作的简单描述

《hadoop权威指南》关于hive的第一个小例子的演示

【Hadoop离线基础总结】Hive的基本操作

系统解析Apache Hive

基于hadoop的数据仓库工具：Hive概述

PyCharm 3.0 发布，提供免费开源版本

Hbase 配置问题（ERROR: org.apache.hadoop.hbase.PleaseHoldException: org.apache.hadoop.hbase.PleaseHoldEx）

# hadoop入门第六篇:Hive实例

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):

开源版本PowerShell Core 6.2 发布