大数据之hiveSQL

最近增加了学习java基础算法，包括几种排序算法，二叉树（前序，后序，中序），队列和栈，bmp搜索，广义搜索算法，迭代等等一些技巧（自己动手绝对比单纯的理论要强的多，多练练）

HIVE是hadoop生态圈的重要一环，降低了hadoop的开发难度，将复杂冗余的代码综合成一个个简单的SQL语句。但是，很明显不如传统的MapReduce灵活，但是提高了项目的开发效率，学习成本低。

主要通过学习视频加上各种博客和其它资料，学习基础的入门SQL语句可以从菜鸟教程上面，hive语法的我主要看的是--> https://www.cnblogs.com/HondaHsu/p/4346354.html

HiveSQL主要分为DDL 和DML

DDL

1.创建表

create [local] table table_name (column_name column_type [commet '描述']，...)

partitioned by (column_name,...)

clustred by (column_name,..)

order by(column_name) // 注意与sort by 的区别前者是全局后者是当前主机

row format delimited

field terminated by char;

stored as ...

localtion hdfs_path

复制一个表结构

create table table_name like like_table_name;

2.修改表

alter table table_name/column_name rename to new_table_name/column_new_name; //修改表名

alter table table_name change [column] column_name column_new_name column_new_name_type [commet] //修改列名

alter table table_name drop cloumn_name/partition_sec;

alter table table_name add column(column_name column_type)

alter table table_name set fileformat new_format;

3删除表，分区

drop table table_name;

alter table table_name drop partition_sec;

4创建数据库

create database database_name;

show databases;

DML

hive 没有insert into 不支持一条一条的插入，可以使用insert overwrite , load data [local]

insert overwrite table table_name

select * from other_table;

local data [local] path 'url' into table table_name [partition]

hive 不支持等值连接类似

select * from table1 a and table b where a.cloumn = b.column;

可以使用 left semi join 代替

insert overwrite 可以直接导出去

insert overwrite [LOCAL] directory ' ' select * from table;

另外hive中 join只支持等值查询

select a.column b.column from table_name1 a join table_name2 b on a.column = b.column;

DQL

select [column_name1,..] from table_name

[where where_condition] /[join .. on .. ]

[group by]

[order by]/[sort by]

[partition]

[limit num]

可能有些地方有些问题，还有很多需要补充。

大数据之hiveSQL的更多相关文章

14周事情总结-机器人-大数据hadoop
14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面昨天参与舵机的测试,遇到的问题:舵机不动排查 ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等 ...
大数据利器Hive
序言:在大数据领域存在一个现象,那就是组件繁多,粗略估计一下轻松超过20种.如果你是初学者,瞬间就会蒙圈,不知道力往哪里使.那么,为什么会出现这种现象呢?在本文的开头笔者就简单的阐述一下这种现象出现的 ...
[大数据面试题]hadoop核心知识点
* 面试答案为LZ所写,如需转载请注明出处,谢谢. * 这里不涉及HiveSQL和HBase操作的笔试题,这些东西另有总结. 1.MR意义. MR是一个用于处理大数据的分布式离线计算框架,它采用”分而 ...
大数据项目测试<二>项目的测试工作
大数据的测试工作: 1.模块的单独测试 2.模块间的联调测试 3.系统的性能测试:内存泄露.磁盘占用.计算效率 4.数据验证(核心) 下面对各个模块的测试工作进行单独讲解. 0. 功能测试 1. 性能 ...
TOP100summit：【分享实录】链家网大数据平台体系构建历程
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数 ...
Impala简介PB级大数据实时查询分析引擎
1.Impala简介 • Cloudera公司推出,提供对HDFS.Hbase数据的高性能.低延迟的交互式SQL查询功能. • 基于Hive使用内存计算,兼顾数据仓库.具有实时.批处理.多并发等优点 ...
传统 BI 如何转大数据数仓
前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈--现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边 ...
日均 6000+ 实例，TB 级数据流量，Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”？
作者 | 胡泽康鄞乐炜作者简介胡泽康联通(广东)产业互联网公司大数据工程师,专注于开源大数据领域,从事大数据平台研发工作鄞乐炜联通(广东)产业互联网公司大数据工程师,主要从事大数据平 ...

随机推荐

Month format:number to English abbre
``` DATA LV_MONTH TYPE FCKTX. CLEAR:LV_MONTH,lv_date. SELECT SINGLE KTX INTO LV_MONTH FROM T247 WHER ...
手机设备上touchstart与click的区别
1.基本定义 touchstart 手指触碰开始就能触发 click 1.手指触碰 2.手指未在屏幕上移动 3.在这个dom上手指离开屏幕 4.触摸和离开屏幕之间的时间间隔较短因此,click事件有 ...
windows -休眠
查询服务器执行的睡眠状态 powercfg -a 开始休眠方法:手工键入如下命令: powercfg -hibernate on 命令执行之后立即就可以生效,无需要重新启动系统,再次执行“powerc ...
一、selenium 环境搭建
本教程演示是在window系统上演示,linux.mac 系统以后会更新. 1.准备工作 1.python2或者python3安装包,官网:https://www.python.org/downloa ...
Python语言学习之Python入门到进阶
人们常说Python语言简单,编写简单程序时好像也确实如此.但实际上Python绝不简单,它也是一种很复杂的语言,其功能特征非常丰富,能支持多种编程风格,在几乎所有方面都能深度定制.要想用好Pytho ...
lr录制脚本中文乱码问题
以下设置一种就可以解决乱码问题方法一.脚本录制好后->在TOOL->RECORDING OPTIONS ->ADVANCED ->SUPPORT CHARSET 勾选UTF- ...
PHPEXCEL读出数据是PHPExcel_RichText类型
今天在做导入EXCEL数据时,而且单元格里的数据类型改成文本类型后,在PHPEXCEL读出来的是PHPExcel_RichText类型的,这类型使getValue()是不管用了,因为这时候getVal ...
android studio 模拟器不能使用的解决方案
1.安装模拟器的时候 AS提示是 VT -x is disable 进入电脑的 bios 系统设置,怎么进入--> 在开机的时候点击F2(华硕电脑,不同电脑方式不同) --在“configura ...
Numpy 矩阵库（Matrix）
Numpy 中包含了一个矩阵库 numpy.matlib, 该模块中的函数返回的是一个矩阵, 而不是 ndarray 对象. 一个 m * n de 矩阵是一个有 m 行(row) n 列(colu ...
python 数据可视化 -- 清理异常值
中位数绝对偏差(Median Absolute Deviation, MAD)用来描述单变量(包含一个变量)样本在定量数据中可变性的一种标准.常用来度量统计分布,因为它会落在一组稳健的统计数据中,因此 ...

大数据之hiveSQL

大数据之hiveSQL的更多相关文章

随机推荐

热门专题