从零自学Hadoop(24)：Impala相关操作上

　　阅读目录

序
数据库相关
表相关
系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

序

上一篇，我们介绍Impala的介绍及安装。

　下面我们开始继续进一步的了解Impala的相关操作。

数据库相关

一：创建

　　在这里，数据库就是一个目录结构，当然对于的元数据还会持久化到关系型数据库。
create database dbtest;
二：查看

　　可以查看当前可用的数据库。
show databases;
三：删除

　　删除制定的数据库，会删除数据库中的表，及数据，hdfs文件。数据库对于的hdfs目录结构也会被删除。
drop database dbtest1;
四：切换当前数据库

　　默认的是default数据库，切换了后，可以直接使用当前数据库中的表。
use dbtest;

表相关

一：创建
create table student
(
id string  ,
name string  ,
sex  string     ,
birthday  timestamp
);
二：创建分区表

　　分区表可以根据存放数据，这样在分析的时候，可以只使用对应分区的数据，可以大大的降低检索的数据量，提高分析性能。
create table student_p
(
id string  ,
name string  ,
sex  string     ,
birthday  timestamp
)
partitioned by (year string,month string,day string);
　　这里定义了year,month,day 这3层分区。

三：查看表明细

　　显示表的元数据，包括列名，类型等等。
desc student;
　

　

　　formatted参数可以显示更多信息，显示格式与hive类似。包括底层详细信息，创建时间，格式，hdfs文件位置等等。
desc formatted student_p;
四：查看当前数据库已有的表
show tables;
五：HDFS目录

　　可以看到在dbtest.db的目录下有两个我们建好表的目录。

六：修改表

　　ALTER TABLE 语句用来修改现有表的结构或属性。在 Impala 里，这是一个逻辑操作，更新了 Impala 和 Hive 共用的 metastore 数据库中表的元数据； ALTER TABLE 语句不会对实际的数据文件进行重写、移动等操作。因此，你可能需要相应的物理文件系统操作才能实现移动数据文件到不同的 HDFS 目录，重写数据文件来包含其他字段，或转换成不同的文件格式。

七：重命名表
alter table student rename to student1;
　　对于内部表，这一操作实际地修改了包含数据文件的 HDFS 目录名；原始目录将不再存在。

八：增加列　　
alter table student1 add columns (addr string);
九：替换列　　
alter table student1 replace columns(id int,name string, sex string,tel int);
　　当替换列时，原有列的定义都被废弃。你可能会在收到一组新的有不同数据类型或不同顺序的列的数据文件时使用这一技术(数据文件会被保留，因此当新列与旧列不兼容时，需要在执行进一步的查询前，使用 INSERT OVERWRITE 或 LOAD DATA OVERWRITE 语句替换所有的数据)。

可以看到。我们将原有列的结构，类型做了很大的替换。

十：修改列

　　修改列可以改变列的名字和类型
alter table student1 change id idstr string;
十一：删除列
alter table student1 drop tel;
十二：修改文件格式
alter table student1 set fileformat parquet;
　　因为本操作只是修改表的元数据，对现存的数据，你必须使用 Impala 之外的 Hadoop 技术对已有的数据进行转换。之后再在 Impala 中使用 INSERT 语句创建的数据将使用新的格式。你不能指定文本文件的分隔符；文本文件的分隔符必须是逗号。

十三：增加分区
alter table student_p add partition(year='',month='',day='');
　　可以看到hdfs中student_p的下面有个3层目录结构。

重复上面增加分区的操作，分别添加22，23日的分区。

十四：删除分区

　　删除day=22的分区。
alter table student_p drop partition(year='',month='',day='');
　可以看到该表只有23，24两个分区。hdfs对应的目录会被删除。所以该分区的实际文件也会被删除。

十五：查看表的统计状态
show table stats student_p;
　　上述语句中使用到这个，可以看到每个分区的状态，如果有数据，还会统计行数，文件数，大小等等。

十六：查看表的列统计
show column stats student_p;
　　

十七：采集表的统计
compute stats student_p;
　　采集相关表和相关列的统计情况。COMPUTE STATS 语句是从底层向上构建，以提高可用性和用户友好度。你可以运行一个单独的 Impala COMPUTE STATS 语句来采集包括 table 和 column 的统计信息，而不是为表和列的统计信息分别运行 Hive ANALYZE TABLE 语句。

　　COMPUTE STATS 也可以采集 HBase 表的信息。采集的 HBase 表的统计信息与 HDFS-backed 表的有所不同，但当 HBase 表执行连接查询时，统计信息仍被用于优化。
　　COMPUTE STATS执行完后，这些统计信息被存放在 metastore 数据库中，可以为impala用来优化查询。

　　

--------------------------------------------------------------------

　　到此，本章节的内容讲述完毕。

系列索引

　　【源】从零自学Hadoop系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

从零自学Hadoop(24)：Impala相关操作上的更多相关文章

从零自学Hadoop(03)：Linux准备上
阅读目录序检查列表常用Linux命令搭建环境系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sou ...
从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
从零自学Hadoop(25)：Impala相关操作下
阅读目录序导入数据查询系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一 ...
从零自学Hadoop(20)：HBase数据模型相关操作上
阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(21)：HBase数据模型相关操作下
阅读目录序变量数据模型操作系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(23)：Impala介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...
从零自学Hadoop(15)：Hive表操作
阅读目录序创建表查看表修改表删除表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceL ...
从零自学Hadoop(22)：HBase协处理器
阅读目录序介绍 Observer操作示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
从零自学Hadoop(19)：HBase介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...

随机推荐

Ceph Object Gateway Admin api 获取用户列表问题
按照官方文档使用Admin Ops API 获取用户列表 GET /admin/user时返回{code: 403, message: Forbidden}这里有两个问题:首先用户列表的请求为如下 ...
navicat连接oracle 报 ORA-12737 set CHS16GBK
1首先,我们打开“工具”-->"选项"菜单,见到如下界面,依据OCI library(oci.dll) 路径,导航到 navicat oci 目录下,备份里面的文件(通过在该 ...
C/C++输入两个任意日期求相隔天数
将两个日期转换成与一个指定日期(例1970-01-01)之间的差然后计算思路: 两个日期相隔天数的计算,首先可以将两个日期转换成time_t(从指定日期至1970年1月1日0时0分0秒相隔的秒数), ...
angular js 和 dajango 标签{{}} 冲突
问题描述: 如果在django的模板中使用{{ }},不会被angularjs 识别. 解决办法: >1.5 的django中,将需要angularjs解释的{{expression}}放在 v ...
Linux下Shadow socks的安装和配置
实在受不了在Windows下编程,所以自己就安装了一个Ubutun,公司用的FQ软件shadowsocks在Windows上用起来很简单很爽,但是在Ubutun上的安装和配置就没那么简单了,写下这篇文 ...
angular中的$q服务
$q的一共有四个api: 1.$q.when(value, successFn, errorFn, progressFn),返回值为一个promise对象 --value可以是一个任意数据,也可以是一 ...
Swift组合逻辑
我们可以组合多个逻辑运算来表达一个复合逻辑: if enteredDoorCode && passedRetinaScan || hasDoorKey || knowsOverride ...
SerializableObj
package JBJADV003; import java.io.*; public class SerializableObj { /** * @param args * @throws IOEx ...
HTML5+CSS3静态页面项目-BusinessTheme的总结
因为期末考试.调整心态等等的种种原因,距离上一次的项目练习已经过了很久了,今天终于有时间继续练习HTML5+CSS3的页面架构和设计稿还原.设计图很长,整个页面分为了好几个区域,所以就不放完整的设计图 ...
SSH框架 spring 配置中的: scope="prototype"
"可以利用容器的scope="prototype"来保证每一个请求有一个单独的Action来处理, 避免struts中Action的线程安全问题." 这句话怎么 ...

从零自学Hadoop(24)：Impala相关操作上

阅读目录

序

数据库相关

一：创建

二：查看

三：删除

四：切换当前数据库

表相关

一：创建

二：创建分区表

三：查看表明细

四：查看当前数据库已有的表

五：HDFS目录

六：修改表

七：重命名表

八：增加列

九：替换列

十：修改列

十一：删除列

十二：修改文件格式

十三：增加分区

十四：删除分区

十五：查看表的统计状态

十六：查看表的列统计

十七：采集表的统计

系列索引

从零自学Hadoop(24)：Impala相关操作上的更多相关文章

随机推荐

热门专题

　　阅读目录

八：增加列　　

九：替换列