Hive记录-部署Hive环境

1.配置 hive1.2.0(前提要配置hadoop2.7.2,前面文档有介绍) #官网下载二进制包,解压到/usr/app 下,配置/etc/profile: export HIVE_HOME=/usr/app/hive export PATH=$PATH:$HIVE_HOME/bin #配置 hive/conf #hive-env.sh加入 export HADOOP_HEAPSIZE=1024 export HADOOP_HOME=/usr/app/hadoop export HIVE_C…

Hadoop记录-部署hadoop环境shell实现

#!/bin/bash menu() { echo "---欢迎使用hadoop部署管理程序---" echo "# 1.初始化Linux环境" echo "# 2.配置jdk" echo "# 3.配置ntpd时钟服务" echo "# 4.配置zookeeper环境" echo "# 5.配置hadoop环境" echo "# 6.退出程序" echo "…

Hive记录-配置远程连接（JAVA/beeline）

1.修改配置hive-site.xml hadoop core-site.xml限制---参考Hive记录-部署Hive环境 2.启动hadoop #sh /usr/app/hadoop/sbin/start-all.sh 3.jps查看五大进程是否齐全:NameNode DataNode NodeManager ResourceManager SecondaryNameNode 4.启动hiveserver2服务 #hive --service hiveserver2 #netstat…

Hive记录-Hive on Spark环境部署

1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark.由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多. 默认情况下,Hive on Spark 在YARN模式下支持Spark. 2.前提条件:安装JDK-1.8/hadoop-2.7.2等,参考之前的博文 3.下载hi…

Docker+Hadoop+Hive+Presto 使用Docker部署Hadoop环境和Presto

Background 一. 什么是Presto Presto通过使用分布式查询,可以快速高效的完成海量数据的查询.如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理.作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto不仅可以访问HDFS,也可以操作不同的数据源,包括:RDBMS和其他的数据源(例如:Cassandra). Presto被设计为数据仓库和数据分析产品:数据分析.…

Hive安装部署

目录一. 安装Hive. 1 1. 选择CDH版本的... 1 2. 解压文件... 1 二. 配置Hive. 1 1. 配置环境变量... 1 2. 复制配置文件... 1 3. 修改hive-env.sh. 1 4. 修改hive-site.xml 1 三. 安装MySQL数据库... 1 1. 更新yum mysql版本... 1 2. yum 安装m…

大数据【五】Hive（部署；表操作；分区）

一概述就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用.这篇博客我主要介绍Hive的简单表运用. Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据.以类SQL的方式来操作表格里的数据. Hive的设计目的是能够以类SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用. Hive本质上相当于一个MapReduce和HDFS的翻译终端,用户提交Hive脚本后,H…

大数据学习笔记——Hive完整部署流程

Hive详细部署教程此篇博客承接上篇Hadoop和Zookeeper的部署教程,将会详细地对HIve的部署做一个整理,Hive相当于是封装在HDFS和Mapreduce上的一套sql引擎,只需要安装在某个集群的主节点上即可,同时需要注意安装Hive前请确保虚拟机主节点上已经安装好了mysql,那么,现在正式开始吧! 1. 安装准备首先我们准备好Hive的安装包,这里用到的Hive版本是2.1.0 2. 详细安装步骤安装前,先将虚拟机做一个快照以备不时之需 2.1 解压缩并修改环境变量 1.…

【原创】大叔经验分享（29）cdh5使用已存在的metastore数据库部署hive

cdh5.16.1使用的hive版本是hive-1.1.0+cdh5.16.1+1431,详见:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball_516.html如果想将直接使用之前已有的hive metastore的数据库,比如hive1.2,要做如下操作: 1)修改元数据的version mysql> update VERSION set sche…

Hive在集群环境配置

本文转载自:https://blog.csdn.net/hanjin7278/article/details/53035739 一.简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 二.环境要求 1.JDK1.7+ 2.本次配…

Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）

#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spark1.6.0) #tar zxvf spark-2.2.0.tgz ---解压 #cd spark-2.2.0/dev ##修改make-distribution.sh的MVN路径为$M2_HO…

Hive基础之Hive环境搭建

Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库.单Session的(只支持单客户端连接,两个客户端连接过去会报错): Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle: 本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用的是CentOS6.4版本. MySQL安装采用yum安装方式安装: yum install mysql #安装mysql客户端 yum install mysql-server #安装mysq…

大数据学习——hive安装部署

1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hiveexport PATH=$PATH:$HIVE_HOME/bin 5 启动hive cd apps/hive bin/hive 出现上面的问题是因为版本不兼容解决一下版本不兼容问题:替换 app…

Hive安装部署与配置

Hive安装部署与配置 1.1 Hive安装地址 1)Hive官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址: http://archive.apache.org/dist/hive/ 4)github地址: https://github.com/apache/hive 1.2 Hive安装部署 1)Hive安装及配置 (1…

部署gerrit环境完整记录【转】

开发同事提议在线上部署一套gerrit代码审核环境,废话不多说,部署gerrit的操作记录如下:提前安装好java环境,mysql环境,nginx环境测试系统:centos6.5下载下面三个包,放到/root目录下(下载地址:http://pan.baidu.com/s/1nuP0X9R (提取密码gqj5))mysql-connector-java-5.1.21.jarbcpkix-jdk15on-1.52.jargerrit-2.11.3.war ----------------------…

hive单机部署

hadoop,hbase,zookeeper安装好了,现在来安装hive hadoop 版本:2.8.4 hbase 版本:2.1.3 hive 版本:2.3.4 zookeeper 版本:3.4.13 1.hive下载:http://mirrors.shu.edu.cn/apache/hive/ 2.上传到linux解压 3.配置环境变量 vi /etc/profile export HIVE_HOME=/hive 把$HIVE_HOME/bin:$PATH加到path中去 >hive --v…

基于Ambari的WebUI部署Hive服务

基于Ambari的WebUI部署Hive服务作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.部署Ambari服务博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12227503.html 二.创建Hive的元数据信息 1>.MySQL 8.x以上版本需要确认的配置文件密码策略 [root@hdp101.yinzhengjie.org.cn ~]# egrep -v "^#|^$" /etc/my.cnf…

记录使用gogs,drone搭建自动部署测试环境

使用gogs,drone,docker搭建自动部署测试环境 Gogs是一个使用go语言开发的自助git服务,支持所有平台 Docker是使用go开发的开源容器引擎 Drone是一个基于容器技术的持续集成平台.每个构建都在一个临时的Docker容器中执行,使开发人员能够完全控制其构建环境并保证隔离.drone易于安装和使用,其目标是替代jenkins 本文所实现的的功能为当你push代码到gogs时,自动更新您测试环境的二进制文件并重启,实现自动部署(以go开发api服务为例,测试环境为ubunt…

【原】Centos6.5下cdh4.6 hive安装部署

1.前提条件: 只需要选择一台服务器即可,这里选择安装在namenode上:安装用户为cloud-user 2.安装包: sudo yum install -y hive hive-metastore hive-server2 3.安装mysql: sudo yum install -y mysql-server sudo service mysqld start sudo yum install -y mysql-connector-java …

Hive介绍和Hive环境搭建

一.Hive介绍 Hive包含用户接口.元数据库.解析器和数据仓库等组件组成,其中用户接口包含shell客户端.JDBC.ODBC.Web接口等.元数据库主要是指定义在hive中的表结构信息,一般保存到关系型数据库中,默认是derby,一般使用mysql进行保存.解析器主要功能是将HQL语句转换为mapreduce代码.数据仓库就是由hdfs组成的数据存储容器.(1)Hive组成 Hive包含用户接口.元数据库.解析器和数据仓库等组件组成,其中用户接口包含shell客户端.JDBC.ODBC.W…

【Hive六】Hive调优小结

Hive调优 Hive调优 Fetch抓取本地模式表的优化小表.大表Join 大表Join大表 MapJoin Group By Count(Distinct) 去重统计行列过滤动态分区调整案例实操数据倾斜 Map数小文件进行合并复杂文件增加Map数 Reduce数并行执行严格模式 JVM重用推测执行执行计划(Explain) Fetch抓取 Fetch抓取是指:Hive中对某些情况的查询可以不必使用MapReduce计算例如:SELECT * FROM employ…

jenkins+git+maven搭建自动化部署项目环境

简介折腾了两个晚上,趁着今晚比较有空,把jenkins+git+maven搭建自动化部署项目环境搭建的过程记录一下,这里我把github作为git的远程仓库(https://github.com/jacky- lulu/cxf_demo-Maven-Webapp) 系统:centos6.5 maven: Apache Maven 3.3.9 git:git version 2.0.0 1.首先安装git,看以前另外一篇博客 http://www.cnblogs.co…

Hadoop之Hive(2)--配置Hive Metastore

Hive metastore服务以关系性数据库的方式存储Hive tables和partitions的metadata,并且提供给客户端访问这些数据的metastore service的API.下面介绍一下Metastore部署的三种模式…

2 hive的使用 + hive的常用语法

本博文的主要内容有: .hive的常用语法 .内部表 .外部表 .内部表,被drop掉,会发生什么? .外部表,被drop掉,会发生什么? .内部表和外部表的,保存的路径在哪? .用于创建一些临时表存储中间结果 .用于向临时表中追加中间结果数据 .分区表(分为,分区内部表和分区外部表) .hive的结构和原理 .hive的原理和架构设计 hive的使用对于hive的使用,在hadoop集群里,先启动hadoop集群,再启动mysql服务,然后,再hive即可. 1.在hadoop安装目录下,s…

Hive 12、Hive优化

要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2．对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,count来说,不存在数据倾斜问题. 4.对count(distinct )…