hive3.1.1 hive-site.xml】的更多相关文章

ailed to fectch URl https://dl-ssl.google.com/android/repository/addons_list.xml, reason: Connection to https://dl-ssl.google.com refused解决办法来源于:code.google.com windows 打开C:\WINDOWS\system32\drivers\etc中的hosts文件 在最后一行添加74.125.237.1 dl-ssl.google.com…
Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必每一步都是必须的,正确的,大家可以参考一下. 第一步:安装和测试mysql(已装好的可跳过) 见我总结的http://blog.csdn.net/unflynaomi/article/details/37811229 第二步.开始正式安装hive 1.在hdfs上建目录: $ hadoop fs -…
1.建表: hive> CREATE TABLE pokes (foo INT, bar STRING); hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是/u0001,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下: create table ooo(uid strin…
HiveServer2是经常与beeline一起使用,可以用jdbc客户端远程连接,一般用于生产环境. 在提供传统客服端的功能之外,还提供其他功能: Beeline连接 1.先在hadoop集群启动HiveServer2 启动命令:HiveServer2 启动日志在hive.log中查看 2.再启动Beeline 命令: Beeline 3.连接 !connect jdbc:hive2://localhost:10000 Beeline命令 传统命令与Beeline命令示例比较: 1.传统:  …
1:要想学习Hive必须将Hadoop启动起来,因为Hive本身没有自己的数据管理功能,全是依赖外部系统,包括分析也是依赖MapReduce: 2:七个节点跑HA集群模式的: 第一步:必须先将Zookeeper启动起来(HA里面好多组件都依赖Zookeeper): 切换目录,启动Zookeeper(master节点,slaver1节点,slaver2节点):./zkServer.sh start 第二步:启动HDFS(千万不要格式化了,不然肯定报错给你): 直接在slaver3节点启动:star…
1. 显示当前的数据库信息 直接修改hive.site.xml ,永久显示 2. 建表,模糊显示表信息 drop  table   表名称: --删除表 show tables ;--显示所有表 show tables like "*u*"; --- 模糊匹配表信息 create  table   :--- 语法和mysql 相似,创建表 describe 表名字: desc 表名字: -- 查看表结构 3. 修改表名字 alter table 表名字  rename to  新表名.…
一.hive安装 1.官网下载 1.2.2版本 http://apache.fayea.com/hive/hive-1.2.2/ 2. 解压,此处目录为 /opt/hadoop/hive-1.2.2 3.  修改 conf/hive-env.sh 4. 重命名 hive-default.xml.template 为  hive-site.xml 此处配置元数据仓库目录,为hdfs中的目录. 5. bin/hive 启动hive 启动成功,但是hive的元数据信息保存在derby数据库中. 修改为…
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.1.3</version> </dependency> scala代码 package com.zy.sparksql import org.apache.spark.SparkContext import…
1.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 本质是将SQL转换为MapReduce程序. 主要用途:操作接口采用类SQL语法,提供快速开发的能力,功能扩展方便,用来做离线分析,比直接用MapReduce开发效率更高. 2.Hive架构 2.1Hive架构图 2.2Hive组件 用户接口:包括CLI.JDBC/ODBC.WebGUI.其中CLI(command line interface)为shell命令行:…
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip:    199.30.25.88 time:  10/Nov/2016:00:01:03 +0800 traffic:  62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化操作 ip--->城市 city(IP) date--> time:2016-11-10 00:01…
一.搭建准备环境 在搭建Hive和SparkSql进行整合之前,首先需要搭建完成HDFS和Spark相关环境 这里使用Hive和Spark进行整合的目的主要是: 1.使用Hive对SparkSql中产生的表或者库的元数据进行管理(因为SparkSql没有提供相关的功能,官方提供的是和Hive的整合方案,官方之所以不在独立去开发一个元数据管理模块是为了防止重复造轮子),所以直接复用了Hive的元数据管理这一套内容 2.单独使用Hive的话速度太慢,所以在前期就打算切换到Spark作为计算引擎,然后…
@ 目录 概述 Spark on Hive Hive on Spark 概述 编译Spark源码 配置 调优思路 编程方向 分组聚合优化 join优化 数据倾斜 任务并行度 小文件合并 CBO 谓词下推 矢量化查询 Yarn配置推荐 Spark配置推荐 Executor CPU核数配置 Executor CPU内存配置 Executor 个数配置 Driver配置 整体配置 概述 前面的文章都单独熟悉Hive和Spark原理和应用,本篇则来进一步研究Hive与Spark之间整合的3种模式: Hi…
impala基于CHD,提供针对HDFS,hbase的实时查询,查询语句类似于hive 包括几个组件 Clients:提供Hue, ODBC clients, JDBC clients, and the Impala Shell与impala交互查询 Hive Metastore:保存数据的元数据,让impala知道数据的结构等信息 Cloudera Impala:协调查询在每个datanode上,分发并行查询任务,并将查询返回客户端 HBase and HDFS:存储数据 环境 hadoop-…
1.  安装VM14的方法在 人工智能标签中的<跨平台踩的大坑有提到> 2. CentOS分区设置: /boot:1024M,标准分区格式创建. swap:4096M,标准分区格式创建. /:剩余所有空间,采用lvm卷组格式创建 其他按需要设置就好, 配置好后使用 vi /etc/sysconfig/network-scripts/ifcfg-eno16777736 设置网络连接; HWADDR=00:0C:29:B3:AE:0E TYPE=Ethernet BOOTPROTO=static…
1.Hadoop的主要应用场景: a.数据分析平台. b.推荐系统. c.业务系统的底层存储系统. d.业务监控系统. 2.开发环境:Linux集群(Centos64位)+Window开发模式(window10,64位操作系统).   使用技术:hadoop,hbase,hive,flume,oozie,sqoop,nginx,tomcat,spring,mybatis,springmvc,mysql等等.Hdfs为海量的数据提供存储,MapReduce为海量的数据提供计算.     此项目使用…
Hadoop分支 Apache Cloudera Hortonworks 本文是采用Cloudera分支的hadoop. 下载cdh-5.3.6 版本 下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 各组件版本一定保持一致. cdh5.3.6-snappy-lib-natirve.tar.gz hadoop-2.5.0-cdh5.3.6.tar.gz hive-0.13.1-cdh5.3.6.tar.gz sqoop-1.4.5-cdh5.3.6.tar…
安装启动步骤  [英语好的,直接手把手跟着来] http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html 问题 Diagnostics 「诊断」 Container [pid=41355,containerID=container_1451456053773_0001_01_000002] is running beyond physical memory limits. …
环境:mac OS X Yosemite + hadoop 2.6.0 + hive 1.2.0 + jdk 1.7.0_79 前提:hadoop必须先安装,且处于运行状态(伪分式模式或全分布模式均可) hive官网地址:http://hive.apache.org/ 建议:经个人实践,在mac OS X Yosemite 环境下,如果使用apache下载的原始hadoop 2.6.0,不管jdk安装成什么版本(1.6\1.7\1.8都试过),hive 1.2.0启动时,始终报jdk版本不匹配,…
1.先决条件配置了hadoop.hive等 2.官网查看版本信息下载相应的安装包 http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/5.10/RPMS/x86_64/ 3.安装一些依赖包:mysql-connector-java.bigtop-jscv.bigtop-utils.libevent.libevent-devel.redhat-lsb.python-setuptools.cyrus-sasl.x86_64.sentry等 4.依…
简介 Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据.Hive本身不存储数据,它完全依赖HDFS和MapReduce.这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行. 而HBase表是物理表,适合存放非结构化的数据. 两者分别是什么? Apache Hive是数据仓库.通过Hive可以使用HQL语言查询存放在HDFS上的数据.HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然H…
一.安装Hadoop 1.1 版本说明 hadoop:3.1.2hive:3.1.1mysql:5.6.40 1.2 主机映射 添加IP与主机名的映射关系,在/etc/hosts文件里添加如下内容(所有主机): 172.31.58.154 HadoopMaster 172.31.51.195 HadoopSlave01 172.31.1.11 HadoopSlave02 1.3 设置SSH无密码登录节点 让Master能够通过SSH无密码登录各个Slave节点.如果修改过主机名,需要重新生成的新…
错误:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException( 或者为FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask ) org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuf…
问题导读 1. Centos7如何安装配置? 2. linux网络配置如何进行? 3. linux环境下java 如何安装? 4. linux环境下SSH免密码登录如何配置? 5. linux环境下Hadoop2.7 如何安装? 6. linux环境下Mysql 如何安装? 7. linux环境下Hive 如何安装? 8. linux环境下Zookeeper 如何安装? 9. linux环境下Kafka 如何安装? 10. linux环境下Hbase如何安装? 11. linux环境下KYLIN…
声明: 此博客参考了官网的配置方式,并结合笔者在实践网上部分帖子时的踩坑经历整理而成 这里贴上官方配置说明: [官方]: https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started 大前提: 从Hive1.1开始支持使用Spark作为执行引擎,我们配置使用Spark On Yarn时,一定要注意 Hive版本与Spark版本的适配,不适配的需要自己重新编译使其适配 这里贴上官方推荐的对应版本 H…
欢迎关注我的社交账号: 博客园地址: http://www.cnblogs.com/jiangxinnju/p/4781259.html GitHub地址: https://github.com/jiangxincode 知乎地址: https://www.zhihu.com/people/jiangxinnju eclipse插件在线发布发布和版本更新(web site) 在eclipse插件开发过程中免不了要发布1.0, 1.1, 1.2--.等等,随着版本的递增,假如每次都发布一个插件zi…
Eclipse 发布到网站的附加产品的形式 Update Site 通过Update Site Project项目将自己做的插件产品公布到公网上,给客户或其它測试人员下载和应用,这样自己的插件就以网站的形式暴露给公众了,谁都能够下载下来试用它. 1. 创建Plug-inProject项目 首先我们先依照Eclipse的向导开发一个插件. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbHVvd3cx/font/5a6L5L2T/fontsize/400…
Eclipse plugin web site 发布和版本更新 在eclipse插件开发过程中免不了要发布1.0, 1.1, 1.2…….等等,随着版本的递增,假如每次都发布一个插件zip包,那使用者就想骂街了,每次都要先uninstall,然后install,中间还要两次eclipse的重启. 一般第三方插件会有2中形式共developer使用,一种是发布zip包,另一种是发布一个web site,eclipse对web site的支持相当好.Install时只需copy插件资源的URL(插件…
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效.浏览更多的配置,有两个方法: 1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的…
上次我们在ubantu上安装了hadoop,那我们现在再进一步,开始我们的学习之旅--hive板块吧! 第一步:准备! 软件: I.一个搭建好的hadoop环境 II.hive的bin文件(前往apache官网,参考链接:http://www.apache.org/dyn/closer.cgi/hive/): III.MySQL(在ubantu上通过apt-get命令下载, 命令顺序:apt-get update  >>  apt-get install -y mysql-server) IV…
前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异.如果碰到同样的问题,本博客的方法无法解决您的问题,请先检查环境配置问题. Hadoop伪分布式相关的问题 1,FATAL conf.Configuration: error parsing conf hdfs-site.xml 原因:…