HIVE 简单总结】的更多相关文章

1.hive命令登录HIVE数据库后,执行show databases;命令可以看到hive数据库中有一个默认的default数据库. [root@hadoop hive]# hive Logging initialized using configuration in file:/usr/local/hive/conf/hive-log4j2.properties Async: true Hive-on-MR and may not be available .X releases. hive…
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性.这是来自官方的解释. 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦. 先上一张经典的Hive架构图: Hive架构图 如图…
解压user.zip [root@hadoop1 test]# unzip user.zip -d /test/bigdatacase/dataset Archive: user.zip inflating: /test/bigdatacase/dataset/raw_user.csv inflating: /test/bigdatacase/dataset/small_user.csv   查看解压出来的两个文件,查看raw_user.csv头文件看一下 [root@hadoop1 datas…
1. 定义job名字 SET mapred.job.name='customer_rfm_analysis_L1'; 这样在job任务列表里可以第一眼找到自己的任务. 2. 少用distinct, 尽量用group by 因为会把数据弄在一个reduce中,造成数据倾斜.distinct数据数量大于1000条时. 3. join时小表最好放左边 否则会引起磁盘和内存的大量消耗 4. 如果union all的部分个数大于2 或者每个union部分数据量大,应该拆成多个insert into 语句…
hive 1 table 查看 表show tables;查看表结构desc table_name; 2 database 默认 default 创建databasecreate database_name;查看 databaseshow databases;使用 databaseuse database_name;删除 databasedrop database_name; 3 托管表 使用场景,数据的所有处理都由HIVE完成 创建表托管表create table POI(id STRING,…
数据库的创建 Hive1版本 在此之前要安装好JDK,HADOOP,下载解压Hive 在root下安装mysql:yum install mysql-server mysql-client //一般Mysql都 是自带的 在root下创建hadoop用户: 1su到root下 2启动mysql服务:./etc/init.d/mysqld restart 3返回家目录,输入mysql -uroot 4有提示mysql>,然后创建hadoop用户了,输入 grant all on *.* to ha…
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.edu.cn/blog/1080-2/)中是在hadoop目录下创建input文件,而MapReduce读取的是HDFS目录中的文件,因此笔者认为该博客存在错误. (2)在hadopp根目录中创建两个测试文件file1.txt和file2.txt,并将他们拷贝到HDFS中的input目录下 echo "…
hive 窗口分析函数 : jdbc:hive2:> select * from t_access; +----------------+---------------------------------+-----------------------+--------------+--+ | t_access.ip | t_access.url | t_access.access_time | t_access.dt | +----------------+------------------…
--------------------------------------------------------------------------------------------------------------------------------------- 修改下面的文件(那个文件先重命名) *上面的hive?createDatabaseIfNotExist=true是创建一个hive数据库,后面参数是如果没有这个数据库,则创建这个hive数据库…
简单查询分析 select brand_id from user_log limit 10; -- 查看日志前10数据 好像也没啥,和SQL相同,,limit取前多少条  , as取别名 查询条数统计分析 count()聚合函数 select count(*) from user_log; -- 用聚合函数count()计算出表内有多少条行数据 distinct不重复 select count(distinct user_id) from user_log; -- 在函数内部加上distinct…
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用场景等问得多.看来,还是非常注重基础的牢固.整个大数据开发技术,这几个技术知识点占了很大一部分.那本篇文章就着重介绍一下这几个技术知识点. 一.Hbase 1.1.Hbase是什么? HBase是一种构建在HDFS之上的分布式.面向列的存储系统.在需要实时读写.随机访问超大规模数据集时,可以使用HB…
hive在大数据套件中占很的地位,分享下个人经验. 1.在hive日常开发中,我们首先面对的就是hive的表和库,因此我要先了解库,表的命名规范和原则 如 dwd_whct_xmxx_m 第1部分为表数据仓库分层:可能取值为ods,dwd(dw明细层),dws(dw汇总层),ads(应用层)等. 第2部分为业务领域 可能为whct(文化传统),whcp文化产品等. 第3层为用户自定义标签 比如项目信息为xmxx,用户可以可以自己定义业务,项目和产品标签 第4层为时间标签:比如d为天,m为月,y为…
原文链接:https://juejin.im/post/59c3f8f75188255be81f91d9#heading-17 Apache Hive-2.3.0 快速搭建与使用 Hive 简介 Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据.它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理.我们可以把 Hive 中海量结构化数据看成一个个的…
====使用Load语句执行数据的导入 --将操作系统上的文件student01.txt数据导入到t2表中 load data local inpath '/root/data/student01.txt' into table t2; --将操作系统上/root/data文件夹下的所有文件导入t3表中,并且覆盖原来的数据 load data local inpath '/root/data/' overwrite into table t3; --将HDFS中,/input/student01…
概述 数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源 数据存储及管理 ETL Extract 提取 Transform 转换 Load 装载 数据仓库引擎 前端展示 数据查询 数据报表 数据分析 1)产生背景 MapReduce编程的不便性 HDFS上的文件缺少schema 2)是什么 The Apache Hive ™ data warehouse software facilitates rea…
Hive常用函数的使用 文章作者:foochane  原文链接:https://foochane.cn/article/2019062501.html 1 基本介绍 1.1 HIVE简单介绍 Hive是一个可以将SQL翻译为MR程序的工具,支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析.Hive将用户定义的库.表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中. 1.2 Hive的用途 做数据分析,不用自…
什么是hive Hive是基于Hadoop的一个数据仓库工具(E抽取T转换L加载),可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 hive的处理流程 ()将HQL语句转化为一组操作符 ()每一个操作符对应一个HDFS操作Mapreduce操作 ()运行MapReduce操作 , 返回结果 Hive简单操作 启动Hive hive 显示数据库 show databases; 使用default数据库 use default; 显示default数据库中的表 show tables;创…
MySQL的密码是:123456 1.hive创建标准表(以后均可以按照这样创建): create [external] table [if not exists] records (year STRING [comment "year备注消息"], temperature INT [comment "temperature 备注消息"], quality INT [comment "quality 备注消息"] ) [comment "…
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 1.hive创建数据库 CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>; 2.hive创建表 hive里一般有两种表的…
Hive--环境搭建 相关hadoop和mysql环境已经搭建好.我博客中也有相关搭建的博客. 一.下载Hive并解压到指定目录(本次使用版本hive-1.1.0-cdh5.7.0,下载地址:http://archive.cloudera.com/cdh5/cdh/5/) tar zxvf ./hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/ 二.Hive配置:参考官网:https://cwiki.apache.org/confluence/display/Hive/Ge…
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/172 声明:版权所有,转载请联系平台与作者并注明出处 1.大数据与数据库 1) 从Hadoop到数据库 大家知道在计算机领域,关系数据库大量用于数据存储和维护的场景.大数据的出现后,很多公司转而选择像 Hadoop/Spark 的大数据解决方案. Hadoop使用分布式文件系统,用于存储大…
类型 特点 场合 优缺点分析 Native Java API 最常规和高效的访问方式 适合MapReduce作业并行批处理HBase表数据 Hbase Shell HBase的命令行工具,最简单的访问方式 适合HBase管理使用 Thrift GateWay 利用Thrift序列化技术,支持c++,PHP,Python等多种语言 适合其他异构系统在线访问HBase表数据 REST Gateway 解除了语言限制 支持REST风格的Http API访问Hbase Pig 使用Pig Latin流式…
来源: 慕课网 Spark SQL慕课网日志分析_大数据实战 目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用 系统: mac 10.13.3 /ubuntu 16.06,两个系统都测试过 软件: hadoop,hive,spark,scala,maven hadoop伪分布式.spark伪分布式 详细: software 存放安装的软件包 app 所有软件的安装目录 data 课程中所有使用的测试数据目录 source 软件源码目录,spark 1)下载hadoop a…
『Ⅱ』-----随笔 莫逸风CSDN文章目录 The Programmer's Oath程序员的誓言-- 今天突发奇想写了一个小工具,CSDN文章目录生成器 vue去掉一些烦人的校验规则 输入npm install 报错node-sass@4.13- idea操作maven时控制台中文显示乱码/maven项目启- jquery validate 如何校验多个相同name IDEA debug启动的时候需要等半个小时甚至更长时间 再也不用担心了,微软官方系统(win10为例)U盘安装教程 mysq…
转自:http://www.iteblog.com/archives/831 如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下: hive> SELECT ; Total MapReduce jobs = Launching Job out of Number of reduce tasks is set to since there's no reduce operator Cannot run job locally: Input Size (=…
Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同的数据量在数据库中查询就比较慢一些,在数据仓库中查询的效率就比较快. 数据仓库是面向于查询的,并且处理的数据量要远远高于数据库处理的数据量. 传统的数据仓库产品,依然有数据存储的瓶颈,那么在这个瓶颈下查询的速度慢了,那么就不适用了,我们的hadoop是处理海量数据的,所以我们可以在上面建立数据仓库.…
所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正! hive中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash分区.混合分区等).分区列也不是表中的一个实际的字段,而是一个或者多个伪列.意思是说在表的数据文件中实际上并不保存分区列的信息与数据. 下面的语句创建了一个简单的分区表: create table partition_test (member_id string, name string ) partitioned by ( stat_date string, p…
Hive 的简单使用及调优参考文档   HIVE的使用 命令行界面 使用一下命令查看hive的命令行页面, hive --help --service cli 简化命令为hive –h 会输出下面的这些东西 -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the d…
0. 说明 通过 Hive 对 duowan 数据进行简单处理 1. 操作流程 1.1 建表 create table duowan(id int, name string, pass string, mail string, nickname string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile; 1.2 加载数据 load data inpath '…
.注册函数,使用using jar方式在hdfs上引用udf库. $hive.注销函数,只需要删除mysql的hive数据记录即可. delete from func_ru ; delete from funcs ;show funcyions:desc formatted function substring: 2.udf函数获取天开始一些简单方法@Description(name = "udf_getdaybegin", value = "getdaybegin"…