HIVE 简单总结

HIVE简单操作

1.hive命令登录HIVE数据库后,执行show databases;命令可以看到hive数据库中有一个默认的default数据库. [root@hadoop hive]# hive Logging initialized using configuration in file:/usr/local/hive/conf/hive-log4j2.properties Async: true Hive-on-MR and may not be available .X releases. hive…

Hive入门笔记---1.Hive简单介绍

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性.这是来自官方的解释. 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦. 先上一张经典的Hive架构图: Hive架构图如图…

hive简单的项目实战

解压user.zip [root@hadoop1 test]# unzip user.zip -d /test/bigdatacase/dataset Archive: user.zip inflating: /test/bigdatacase/dataset/raw_user.csv inflating: /test/bigdatacase/dataset/small_user.csv 查看解压出来的两个文件,查看raw_user.csv头文件看一下 [root@hadoop1 datas…

Hive简单优化；workflow调试

1. 定义job名字 SET mapred.job.name='customer_rfm_analysis_L1'; 这样在job任务列表里可以第一眼找到自己的任务. 2. 少用distinct, 尽量用group by 因为会把数据弄在一个reduce中,造成数据倾斜.distinct数据数量大于1000条时. 3. join时小表最好放左边否则会引起磁盘和内存的大量消耗 4. 如果union all的部分个数大于2 或者每个union部分数据量大,应该拆成多个insert into 语句…

hive 1 table 查看表show tables;查看表结构desc table_name; 2 database 默认 default 创建databasecreate database_name;查看 databaseshow databases;使用 databaseuse database_name;删除 databasedrop database_name; 3 托管表使用场景,数据的所有处理都由HIVE完成创建表托管表create table POI(id STRING,…

Hive简单安装

数据库的创建 Hive1版本在此之前要安装好JDK,HADOOP,下载解压Hive 在root下安装mysql:yum install mysql-server mysql-client //一般Mysql都是自带的在root下创建hadoop用户: 1su到root下 2启动mysql服务:./etc/init.d/mysqld restart 3返回家目录,输入mysql -uroot 4有提示mysql>,然后创建hadoop用户了,输入 grant all on *.* to ha…

Hive简单编程实践-词频统计

一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.edu.cn/blog/1080-2/)中是在hadoop目录下创建input文件,而MapReduce读取的是HDFS目录中的文件,因此笔者认为该博客存在错误. (2)在hadopp根目录中创建两个测试文件file1.txt和file2.txt,并将他们拷贝到HDFS中的input目录下 echo "…

Hive—简单窗口分析函数

hive简单学习---1

--------------------------------------------------------------------------------------------------------------------------------------- 修改下面的文件(那个文件先重命名) *上面的hive?createDatabaseIfNotExist=true是创建一个hive数据库,后面参数是如果没有这个数据库,则创建这个hive数据库…

hive简单数据分析

简单查询分析 select brand_id from user_log limit 10; -- 查看日志前10数据好像也没啥,和SQL相同,,limit取前多少条 , as取别名查询条数统计分析 count()聚合函数 select count(*) from user_log; -- 用聚合函数count()计算出表内有多少条行数据 distinct不重复 select count(distinct user_id) from user_log; -- 在函数内部加上distinct…

大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制

今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用场景等问得多.看来,还是非常注重基础的牢固.整个大数据开发技术,这几个技术知识点占了很大一部分.那本篇文章就着重介绍一下这几个技术知识点. 一.Hbase 1.1.Hbase是什么? HBase是一种构建在HDFS之上的分布式.面向列的存储系统.在需要实时读写.随机访问超大规模数据集时,可以使用HB…

大数据开发主战场hive （企业hive应用）

hive在大数据套件中占很的地位,分享下个人经验. 1.在hive日常开发中,我们首先面对的就是hive的表和库,因此我要先了解库,表的命名规范和原则如 dwd_whct_xmxx_m 第1部分为表数据仓库分层:可能取值为ods,dwd(dw明细层),dws(dw汇总层),ads(应用层)等. 第2部分为业务领域可能为whct(文化传统),whcp文化产品等. 第3层为用户自定义标签比如项目信息为xmxx,用户可以可以自己定义业务,项目和产品标签第4层为时间标签:比如d为天,m为月,y为…

hive mysql 初始化

原文链接:https://juejin.im/post/59c3f8f75188255be81f91d9#heading-17 Apache Hive-2.3.0 快速搭建与使用 Hive 简介 Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据.它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理.我们可以把 Hive 中海量结构化数据看成一个个的…

Hive入门学习随笔（二）

====使用Load语句执行数据的导入 --将操作系统上的文件student01.txt数据导入到t2表中 load data local inpath '/root/data/student01.txt' into table t2; --将操作系统上/root/data文件夹下的所有文件导入t3表中,并且覆盖原来的数据 load data local inpath '/root/data/' overwrite into table t3; --将HDFS中,/input/student01…

Hive 01 概述、安装配置

概述数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源数据存储及管理 ETL Extract 提取 Transform 转换 Load 装载数据仓库引擎前端展示数据查询数据报表数据分析 1)产生背景 MapReduce编程的不便性 HDFS上的文件缺少schema 2)是什么 The Apache Hive ™ data warehouse software facilitates rea…

Hive常用函数的使用

Hive常用函数的使用文章作者:foochane 原文链接:https://foochane.cn/article/2019062501.html 1 基本介绍 1.1 HIVE简单介绍 Hive是一个可以将SQL翻译为MR程序的工具,支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析.Hive将用户定义的库.表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中. 1.2 Hive的用途做数据分析,不用自…

Hive学习(2)

什么是hive Hive是基于Hadoop的一个数据仓库工具(E抽取T转换L加载),可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 hive的处理流程 ()将HQL语句转化为一组操作符 ()每一个操作符对应一个HDFS操作Mapreduce操作 ()运行MapReduce操作 , 返回结果 Hive简单操作启动Hive hive 显示数据库 show databases; 使用default数据库 use default; 显示default数据库中的表 show tables;创…

hive基础知识or基本操作命令

MySQL的密码是:123456 1.hive创建标准表(以后均可以按照这样创建): create [external] table [if not exists] records (year STRING [comment "year备注消息"], temperature INT [comment "temperature 备注消息"], quality INT [comment "quality 备注消息"] ) [comment "…

Hive基础语法5分钟速览

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 1.hive创建数据库 CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>; 2.hive创建表 hive里一般有两种表的…

Hive——环境搭建

Hive--环境搭建相关hadoop和mysql环境已经搭建好.我博客中也有相关搭建的博客. 一.下载Hive并解压到指定目录(本次使用版本hive-1.1.0-cdh5.7.0,下载地址:http://archive.cloudera.com/cdh5/cdh/5/) tar zxvf ./hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/ 二.Hive配置:参考官网:https://cwiki.apache.org/confluence/display/Hive/Ge…

图解大数据 | 海量数据库查询-Hive与HBase详解

作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/172 声明:版权所有,转载请联系平台与作者并注明出处 1.大数据与数据库 1) 从Hadoop到数据库大家知道在计算机领域,关系数据库大量用于数据存储和维护的场景.大数据的出现后,很多公司转而选择像 Hadoop/Spark 的大数据解决方案. Hadoop使用分布式文件系统,用于存储大…

HBase数据访问的一些常用方式

类型特点场合优缺点分析 Native Java API 最常规和高效的访问方式适合MapReduce作业并行批处理HBase表数据 Hbase Shell HBase的命令行工具,最简单的访问方式适合HBase管理使用 Thrift GateWay 利用Thrift序列化技术,支持c++,PHP,Python等多种语言适合其他异构系统在线访问HBase表数据 REST Gateway 解除了语言限制支持REST风格的Http API访问Hbase Pig 使用Pig Latin流式…

Spark SQL慕课网日志分析（1）--系列软件(单机)安装配置使用

来源: 慕课网 Spark SQL慕课网日志分析_大数据实战目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用系统: mac 10.13.3 /ubuntu 16.06,两个系统都测试过软件: hadoop,hive,spark,scala,maven hadoop伪分布式.spark伪分布式详细: software 存放安装的软件包 app 所有软件的安装目录 data 课程中所有使用的测试数据目录 source 软件源码目录,spark 1)下载hadoop a…

莫逸风CSDN文章目录

『Ⅱ』-----随笔莫逸风CSDN文章目录 The Programmer's Oath程序员的誓言-- 今天突发奇想写了一个小工具,CSDN文章目录生成器 vue去掉一些烦人的校验规则输入npm install 报错node-sass@4.13- idea操作maven时控制台中文显示乱码/maven项目启- jquery validate 如何校验多个相同name IDEA debug启动的时候需要等半个小时甚至更长时间再也不用担心了,微软官方系统(win10为例)U盘安装教程 mysq…

[转]Hive：简单查询不启用Mapreduce job而启用Fetch task

转自:http://www.iteblog.com/archives/831 如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下: hive> SELECT ; Total MapReduce jobs = Launching Job out of Number of reduce tasks is set to since there's no reduce operator Cannot run job locally: Input Size (=…

HIve体系结构，hive的安装和mysql的安装，以及hive的一些简单使用

Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同的数据量在数据库中查询就比较慢一些,在数据仓库中查询的效率就比较快. 数据仓库是面向于查询的,并且处理的数据量要远远高于数据库处理的数据量. 传统的数据仓库产品,依然有数据存储的瓶颈,那么在这个瓶颈下查询的速度慢了,那么就不适用了,我们的hadoop是处理海量数据的,所以我们可以在上面建立数据仓库.…

hive中简单介绍分区表

所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正! hive中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash分区.混合分区等).分区列也不是表中的一个实际的字段,而是一个或者多个伪列.意思是说在表的数据文件中实际上并不保存分区列的信息与数据. 下面的语句创建了一个简单的分区表: create table partition_test (member_id string, name string ) partitioned by ( stat_date string, p…