Hive-1.2.1_01_安装部署】的更多相关文章

1. Hive简介 1.1 什么是Hive Hives是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 1.2 为什么使用Hive ① 直接使用Hadoop面临人员学习成功太高.项目周期要求太短.MapReduce实现复杂查询逻辑开发难度太大等问题: ② Hive操作接口采用类SQL语法,提供快速开发的能力,避免了去写MapReduce,减少开发人员的学习成本,扩展功能很方便. 1.3 Hive的特点 可扩展:Hive可以自由的扩展集群的规…
前言:该文章是基于 Hadoop2.7.6_01_部署 进行的. 1. Hive基本概念 1.1. 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 1.2. 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力. 避免了去写MapReduce,减少开发人员的学习成本…
要想使用Hive先要有hadoop集群的支持,使用本地把元数据存储在mysql中. mysql要可以远程连接: 可以设置user表,把localhost改为%,所有可连接.记住删除root其他用户,不然可能会有影响 update user set host='%' where host='localhost'; Hive的安装部署: 1.解压tar文件 2.修改文件: 修改conf/下面的文件: cp hive-env.sh.tempalte hive-env.sh 配置hive-env.sh文…
Hive 系列(一)安装部署 Hive 官网:http://hive.apache.org.参考手册 一.环境准备 JDK 1.8 :从 Oracle 官网下载,设置环境变量(JAVA_HOME.PATH 和 CLASSPATH). Hadoop 2.9.2 :基础平台. Hive 2.3.4 :Hive 是作为 Hadoop 的客户端启动的,将 Hadoop 的 SQL 封装成 MapReduce 执行. 二.Hive 安装 2.1 安装 (1) 安装 tar -xzvf hive-2.3.4…
Hive环境的安装部署(完美安装)(集群内或集群外都适用)(含卸载自带mysql安装指定版本) Hive 安装依赖 Hadoop 的集群,它是运行在 Hadoop 的基础上. 所以在安装 Hive 之前,保证 Hadoop 集群能够成功运行. 同时,比如我这里的master.slave1和slave2组成的hadoop集群.hive的安装可以安装在任一一个节点上,当然,也可以安装在集群之外,取名为client.只需要ssh免密码通信即可. 1. 下载Hive 这里很简单,不多赘述. http:/…
Hive在客户端上的安装部署 一.客户端准备: 到这我相信大家都已经打过三节点集群了,如果是的话则可以跳过一,直接进入二.如果不是则按流程来一遍! 1.克隆虚拟机,见我的博客:虚拟机克隆及网络配置 2. 实现客户端和集群的连接(该步骤为多节点集群搭建,详情见我博客:三节点Hadoop集群搭建,有多节点集群的请跳到二) (1)配置时钟同步:保证客户端和集群的时间是同步的,具体操作参照分布式集群搭建的步骤. (2)修改主机名:修改/etc/sysconfig/network文件,修改完之后要rebo…
    搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放 Hadoop等组件运行包.因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下 创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app). Hadoop搭建环境: 虚拟机操作系统: CentOS6.6 64位,…
Hive安装部署与配置 1.1 Hive安装地址 1)Hive官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址: http://archive.apache.org/dist/hive/ 4)github地址: https://github.com/apache/hive 1.2 Hive安装部署 1)Hive安装及配置 (1…
Hive的安装部署以及使用方式 安装部署 Derby版hive直接使用 cd /export/softwares 将上传的hive软件包解压:tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/ cd /export/servers/hive-1.1.0-cdh5.14.0/ 启动:bin/hive 缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库.表就不统一: 使用mysql共享hive元数据 1.国内下载mysq…
一.hive是什么东东 1. 个人理解 hive就是一个基于hdfs运行于MapReduce上的一个java项目, 这个项目封装了jdbc,根据hdfs编写了处理数据库的DDL/DML,自带的 二进制包内嵌Derby数据库,且默认使用Derby,简而言之,hive就是一个 帮助我们处理/分析数据的工具,不过这个工具却像namenode一样存储了 一份文件的元数据,这就有点像数据仓库的感觉 2. 架构 分为服务端.客户端,基于hadoop,运行在mapreduce,存储于hfds, 可与hbase…
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan  .该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博客边上机实验,课程地址为 https://www.shiyanlou.com/courses/237 [注]该系列所使用到安装包.测试数据和代码均可在百度网盘下载,具体地址为 http://pan.baidu.c…
redis 应用于web前端,做缓存和数据存取的速度是挺可观的,最近看了一些资料,手痒了,就弄了一个测试环境,两台方案,试用一下. ##Redis 集群部署## 一,方案调研: 参考博客: http://jolestar.com/redis-ha/ http://www.luocs.com/archives/tag/redis https://github.com/wandoulabs/codis/blob/master/doc/tutorial_zh.md https://github.com…
1.部署环境 OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) Hadoop:Hadoop 2.4.1 Hive:0.11.0 JDK:1.7.0_60 Python:2.6.6(spark集群需要python2.6以上,否则无法在spark集群上运行py) Spark:0.9.1(最新版是1.1.0) Shark:0.9.1(目前最新的版本,但是只能够兼容到spark-0.9.1,见shark 0.9.1 release) Zo…
注:之前本人写了一篇SparkR的安装部署文章:SparkR安装部署及数据分析实例,当时SparkR项目还没正式入主Spark,需要自己下载SparkR安装包,但现在spark已经支持R接口,so更新了这篇文章. 1.Hadoop安装 参考: http://www.linuxidc.com/Linux/2015-11/124800.htm http://blog.csdn.net/sa14023053/article/details/51952534 yarn-site.xml <propert…
在root的用户下搭建的 • Azkaban安装部署(可参照:http://azkaban.github.io/azkaban/docs/latest/) 1):前提 安装JDK,安装Hadoop,Hive客户端环境 2):前提 安装 git 的命令 :apt-get install git 3):把github的azkaban源码下载命令:git clone https://github.com/azkaban/azkaban.git 4)进入azkaban 然后命令: vim azkaban…
Flume支持众多的source和sink类型,详细手册可参考官方文档,更多source和sink组件 http://flume.apache.org/FlumeUserGuide.html Flume官网入门指南: 1:Flume的概述和介绍: (1):Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.(2):Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS.hbase.hive.kafka等众多外部存储系统中(3):一般的采…
前言 本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以安装成功,但是在启动某些服务的时候可能会有异常,比如最后提到的hive启动异常.本文适合系统: RedHat7.CentOS7.Oracle Linux7(都是64位)注意:centos7中文系统有bug(python脚本中文识别问题),需要使用英文系统.本文仅作参考(基本每个配置博客都有局限性和坑…
本节内容: Apache Storm是什么 Apache Storm核心概念 Storm原理架构 Storm集群安装部署 启动storm ui.Nimbus和Supervisor 一.Apache Storm是什么 Apache Storm是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理. 批处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大.自动容错等优点,在海量数据处理上得到了广泛的使用.但是,hadoop不擅长实时…
PRESTO部署和参数说明(一) 一,概要 在部署和使用presto的过程中,在此记录一下部署记录和使用记录以及需要注意的事项.本人使用的presto版本是0.214,3台redhat虚拟机.使用背景:客户需要定期查询大批量的数据,最后选择了sqoop工具定期导入hive,并且定期删除定期更新,因为没有找到是个实时增量导入的工具,批量执行mapreduce任务,然后使用分布式查询引擎presto查询数据. 二,安装部署 在官网下载最新的安装包和客户端包: server安装包:https://pr…
kylin 系列(一)安装部署 一.环境说明 1.1 版本选择 cdh 版本下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 软件名称 版本 JDK 1.8 HADOOP Hadoop2.6.0-cdh5.10 ZOOKEERER 3.4.5 HBASE Hbase1.2.0-cdh5.10 HIVE Hive1.2.0-cdh5.10 KAFKA Kafka0.10 KYLIN Kylin2.3.2 1.2 节点准备 节点 说明 CDH-01 CDH-0…
部署impala impala安装选择rpm包方式进行,这是本次部署唯一一个主要主件采用rpm方式进行安装部署,这里主要原因是cloudera没有提供现成的tar包文件,而源码编译过程会出现各种未知原因,为了方便采用以下方式进行部署. 安装介质如下: $ ls bigtop-utils-0.7.0+cdh5.10.0+0-1.cdh5.10.0.p0.71.el7.noarch.rpm impala-2.7.0+cdh5.10.0+0-1.cdh5.10.0.p0.71.el7.x86_64.r…
Azkaban介绍 什么是azkaban?1.工作流的作业调度系统2.通过k.v指令写法描述工作流节点3.可以通过web界面去管理工作流 Azkaban安装部署 2.3.1 准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 …
之所以选择Sqoop1是因为Sqoop2目前问题太多.无法正常使用,综合比较后选择Sqoop1. Sqoop1安装配置比较简单 一.安装部署 (1).下载安装包 下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 解压到/home/duanxz/sqoop tar -zxvf sqoop-1.4.6-cdh5.5.2.tar.gz (2).拷贝mysql的jdbc驱动包mysql-connector-ja…
一.安装准备 1.操作系统 Centos 7.x 2.时间问题 集群内所有节点时间一定要同步. NTP.Chrony 3.用户 创建hadoop组和hadoop用户,并做ssh免密码登录 4.Hadoop HA集群 Hadoop 5.HBase hbase .x 6.Hive Hive ,使用 mysql 存放元数据 7.准备目录 # mkdir /install # cd /install # chown -R hadoop:hadoop /install 8.kylin kylin 这个版本…
0x01 Kylin安装环境 Kylin依赖于hadoop大数据平台,安装部署之前确认,大数据平台已经安装Hadoop, HBase, Hive. 1.1 了解kylin的两种二进制包 预打包的二进制安装包:apache-kylin-1.6.0-bin.tar.gz 特别二进制包:apache-kylin-1.6.0-HBase1.x-bin.tar.gz 说明:特别二进制包是一个在HBase 1.1+环境上编译的Kylin快照二进制包:安装它需要HBase 1.1.3或更高版本,否则之前版本中…
一.Spark介绍 1.1 Apache Spark Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架(没有数据存储).最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 1.2 Hadoop和Spark Hadoop常用于解决高吞吐.批量处理的业务场景,例如离线计算结果用于浏览量统计.如果需要实时查看浏览量统计信息,Hadoop显然不符合这样的要求.Spark通过内存计算能力极大地提高了大数据处理速度,满足了以上场…
本节内容: Hadoop版本 安装部署Hadoop 一.Hadoop版本 1. Hadoop版本种类 目前Hadoop发行版非常多,有华为发行版.Intel发行版.Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议(http://www.apache.org/licenses/LICENSE-2.0)决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售. 国内绝大多数公司发行…
一 概述1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 各种调度工具特性对比1.4 Azkaban 与 Oozie 对比二 Azkaban(阿兹卡班) 介绍三 Azkaban 安装部署3.1 安装前准备3.2 安装 azkaban3.2 创建 SSL 配置3.3 时间同步配置3.4 配置文件3.4.1 Web 服务器配置3.4.2 执行服务器配置3.5 启动 web 服务器3.6 启动执行服务器四 Azkaban 实战4.1 Command 类型之单 job 工作流案例4.2…
一.简介 hive由Facebook开源用于解决海量结构化日志的数据统计.hive是基于Hadoop的一个数据仓库工具,是基于Hadoop之上的,文件是存储在HDFS上的,底层运行的是MR程序.hive可以将结构化的数据文件映射成一张表,并提供类SQL查询功能. 二.HIVE特点 构建在Hadoop之上的数据仓库 使用HQL作为查询接口 使用HDFS存储 使用MapReduce计算 本质:将HQL转化成MapReduce程序 灵活性和扩展性比较好:支持UDF.自定义存储格式等 适合离线数据处理…
系统:linux java:jdk 8,64-bit Connector:hive 分布式,node1-3 node1:Coordinator . Discovery service node2-3:Worker 开始安装部署 除了标红的需要在node2-3上特殊处理,其他设置和node1一样,下面以node1为例 Presto Server配置 解压缩presto-server-0.166.tar.gz tar zxvf presto-server-0.166.tar.gz 在presto-s…