【转】Impala 中的 Invalidate Metadata 和 Refresh

前言
Impala采用了比较奇葩的多个impalad同时提供服务的方式，并且它会由catalogd缓存全部元数据，再通过statestored完成每一次的元数据的更新到impalad节点上，Impala集群会缓存全部的元数据，这种缓存机制就导致通过其他手段更新元数据或者数据对于Impala是无感知的，例如通过hive建表，直接拷贝新的数据到HDFS上等，Impala提供了两种机制来实现元数据的更新，分别是INVALIDATE METADATA和REFRESH操作，本文将详细介绍这两个操作。

使用方式
INVALIDATE METADATA是用于刷新全库或者某个表的元数据，包括表的元数据和表内的文件数据，它会首先清楚表的缓存，然后从metastore中重新加载全部数据并缓存，该操作代价比较重，主要用于在hive中修改了表的元数据，需要同步到impalad，例如create table/drop table/alter table add columns等。

INVALIDATE METADATA 语法：

INVALIDATE METADATA; //重新加载所有库中的所有表

INVALIDATE METADATA [table] //重新加载指定的某个表

REFRESH是用于刷新某个表或者某个分区的数据信息，它会重用之前的表元数据，仅仅执行文件刷新操作，它能够检测到表中分区的增加和减少，主要用于表中元数据未修改，数据的修改，例如INSERT INTO、LOAD DATA、ALTER TABLE ADD PARTITION、LLTER TABLE DROP PARTITION等，如果直接修改表的HDFS文件（增加、删除或者重命名）也需要指定REFRESH刷新数据信息。

REFRESH 语法：

REFRESH [table] //刷新某个表

REFRESH [table] PARTITION [partition] //刷新某个表的某个分区

INVALIDATE METADATA原理
对于INVALIDATE METADATA操作，由客户端将查询提交到某个impalad节点上，执行如下的操作：

1.获取需要执行INVALIDATE METADATA的表，如果没指定表则不设置表示全部表（不考虑这种情况）。
2.请求catalogd执行resetMetadata操作，并将isFresh参数设置为false。
3.catalogd接收到该请求之后执行invalidateTable操作，将该表的缓存清除，然后重新生成该表的缓存对象，新生成的对象只包含表名+库名的信息，为新生成的表对象生成一个新的catalog版本号（假设新的version=1），将这部分信息返回给调用方（impalad），然后异步执行元数据和数据的加载。
4.impalad收到catalogd的返回值，返回值是更新之后的表缓存对象+版本号，但是这是一个不完整的表元数据，impalad将这个元数据应用到本地元数据缓存。
5.INVALIDATE METADATA执行完成。
INVALIDATE METADATA操作带来的副作用是生成一个新的未完成的元数据对象，对于操作请求的impalad（称它为impalad-A），能够立马获取到该对象，对于其它的impalad需要通过statestored同步，因此执行完该操作，处理该操作的impalad对于该表的缓存是一个新的但是不完整的对象，其余的impalad保存的是旧的元数据。

对于后续的该表查询操作，分为如下四种情况：

1. 如果catalogd已经完成该表所有元数据加载，会对该表生成一个新的版本号（假设version=2），然后更新到statestored，由statestored广播到各个impalad节点上，此时所有的查询都查询到最新的元数据和数据。

2. 如果catalogd尚未完成表的元数据加载或者statestored未广播完成，并且接下来请求到impalad-A（之前执行INVALIDATE METADATA的节点），此时impalad在执行语义分析的时候能够检测到表的元数据不完整（因为当前只有表名和库名，没有任何其余的元数据），impalad会直接请求catalogd获取该表最新的元数据，如果catalogd尚未完成元数据加载，则该请求会等到直到catalogd加载完成并返回impalad最新的元数据。

3. 如果catalogd尚未完成表的元数据加载或statestored未广播完成，接下来请求到了其他的impalad节点，如果接受请求的impalad尚未通过statestored同步新的不完整的表元数据（version=1），则该impalad中缓存的关于该表的元数据是执行INVALIDATE METADATA之前的，因此根据旧的元数据处理该查询（可能因为文件被删除导致错误）。
4. 如果catalogd尚未完成表的元数据加载，接下来请求到了其他的impalad节点，如果接受请求的impalad已经通过statestored同步新的不完整的表元数据（version=1），那么接下来会像第二种情况一样处理。

从INVALIDATE METADATA的实现来看，该操作不仅仅会全量加载表的元数据和分区、文件元数据，还会影响后面关于该表的查询。

REFRESH 原理
对于REFRESH操作，由客户端将查询提交到某个impalad节点上，执行如下的操作：

1.获取需要执行REFRESH的表和分区信息。
2.请求catalogd执行resetMetadata操作，并将isFresh参数设置为true。
3.catalogd接收到该请求之后判断是否指定分区，如果指定了分区则执行reload partition操作，如果未指定则执行reload table操作，对于reloadPartition则从metastore中读取partition最新的元数据，然后刷新该partition拥有的所有文件的元数据（大小，权限，数据分布等）；对于reloadTable则从metadata中读取全部的partition信息，然后和缓存中的partition进行比对判断是否有分区需要增加和删除，对于其余的分区则执行元数据的更新。
4.impalad收到catalogd的返回值，返回值是更新之后该表的缓存数据，impalad会将该数据更新到自己的缓存中。因此接受请求的impalad能够将当前元数据缓存。
5.REFRESH执行完成。

对于后续的查询，分为如下两种情况：

1. 如果查询提交到到执行REFRESH的impalad节点，那么查询能够使用最新的元数据。
2. 如果查询提交到其他impalad节点，需要依赖于该表0更新后的缓存是否已经同步到impalad中，如果已经完成了同步则可以使用最新的元数据，如果未完成则使用旧的元数据。
可以看出REFRESH操作较之于INVALIDATE METADATA是轻量级的操作，如果更改只涉及到一个分区设置可以只刷新一个分区的元数据，并且它是同步的，对于之后查询的影响较小。

使用原则
如果在使用过程中涉及到了元数据或者数据的更新，则需要使用这两者中的一个操作完成，具体如何选择需要根据如下原则：

invalidate metadata操作比refresh要重量级
如果涉及到表的schema改变，使用invalidate metadata [table]
如果只是涉及到表的数据改变，使用refresh [table]
如果只是涉及到表的某一个分区数据改变，使用refresh [table] partition [partition]
禁止使用invalidate metadata什么都不加，宁愿重启catalogd。

总结
REFRESH和INVALIDATE METADATA对于impala而言是比较重要的两个操作，分别处理数据和元数据的修改，其中REFRESH操作是同步的，INVALIDATE METADATA是异步的，本文详细介绍了两种语句的适用场景和执行原理，以及可能造成的影响，最重要的是，需要谨记这两种查询使用场景。

Reference:

https://blog.csdn.net/yu616568/article/details/72780346 Impala中的invalidate metadata和refresh

【转】Impala 中的 Invalidate Metadata 和 Refresh的更多相关文章

Impala 中invalidate metadata和refresh
首先了解一下:Impala如何融入Hadoop生态系统 Impala使用了Hadoop生态系统中许多熟悉的组件.Impala可以作为消费者和生产者与其他Hadoop组件交换数据,因此它可以以灵活的方式 ...
hive中更改表impala中不能生效
hive中的更新或者新建表impala 不能实时更新 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的meta ...
impala invalidate metadata和impala-shell -r作用相同
impala的invalidate metadata内部命令,是否和外部命令impala-shell -r的作用相同的? 这个问题的回答: 在invalidate metadata 和 impala- ...
为何invalidate()不可以直接在UI线程中调用&invalidate与postInvalidate
1.android ui操作为什么一定要在主线程中执行? 答:Android UI操作是单线程模型,关于UI更新的相关API(包括invalidate())都是按照单线程设计的,对于多线程运行时不安全 ...
Impala中的代码生成技术
Cloudera Impala是一种为Hadoop生态系统打造的开源MPP(massive parallel processing)数据库,它主要为分析型查询负载而设计,而非OLTP.Impala能最 ...
MFC中的Invalidate、OnDraw、OnPaint函数的作用
MFC中的Invalidate.OnDraw.OnPaint函数的作用 CWnd::Invalidate voidInvalidate( BOOL bErase = TRUE ); 该函数的作用是使 ...
Impala中多列转为一行
之前有一位朋友咨询我,Impala中怎样实现将多列转为一行,事实上Impala中自带函数能够实现,不用自己定义函数. 以下我開始演示: -bash-4.1$ impala-shell Starting ...
大数据备忘录———将数据从oracle导入impala中
上周遇到了将数据从oracle导入到impala的问题,这个项目耽误了我近一周的时间,虽然是种种原因导致的,但是还是做个总结. 需求首先是跑数据,跑数据这个就不叙述,用的是公司的平台. 讲讲耽误我最久 ...
Android中刷新Invalidate和postInvalidate的区别
Android中实现view的更新有两组方法,一组是invalidate,另一组是postInvalidate,其中前者是在UI线程自身中使用,而后者在非UI线程中使用.Android提供了Inval ...

随机推荐

SQL Server返回DATETIME类型，年、月、日、时、分、秒、毫秒
SQL Server返回DATETIME类型的年.月.日,有两种方法,如下所示: DECLARE @now DATETIME=GETDATE() --第一种方法 SELECT @now,YEAR(@n ...
c#中关于@的作用
参考链接:https://www.cnblogs.com/linkbiz/p/6380814.html
【翻译】nginx初学者指南
nginx初学者指南本文翻译自nginx官方网站:http://nginx.org/en/docs/beginners_guide.html#control 该指南会对nginx做一个简要的介绍,同 ...
2019 找钢网java面试笔试题（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.找钢网等公司offer,岗位是Java后端开发,因为发展原因最终选择去了找钢网,入职一年时间了,也成为了面试官 ...
pyspider最佳实践
pyspider是好东西,非常稳定,很久很久以前架了一个,心冷了一段时间,但人家尽忠职守地持续运行,一直在抓取东西. 结合chrome,抓取代码简直不要太好写,没想到,最头大的,还是它的调度.明明感觉 ...
JavaScript 流程控制（一）顺序结构与分支结构
语句:语句可以理解为一个行为,循环语句和判断语句就是典型的语句.一个程序有很多个语句组成,一般情况下分号;分割一个一个的语句:如果省略分号,则由解析器确定语句的结尾(不推荐使用) 一.流程控制流程控 ...
JavaScript 调试 debug
一.错误 1.语法错误出现错误,有提示,很容易的解决. 2.逻辑错误不容易发现二.调试方式 1.alert() 方式 2.console.log()/console.error() 方式 3.断 ...
面试题：什么叫B*树
B*-tree是B+-tree的变体,在B+树的基础上(所有的叶子结点中包含了全部关键字的信息,及指向含有这些关键字记录的指针),B*树中非根和非叶子结点再增加指向兄弟的指针:
Solr新特性【4.x,5.x,6.x,7.x】
一.Solr4.x新特性 1.近实时搜索 Solr的近实时搜索[Near Real-Time,NRT]功能实现了文档添加到搜索的快速进行,以应对搜索快速变化的数据. 2.原子更新与乐观并发原子更新功 ...
设计模式结构型 - 适配器模式 Adapter
Adapter(适配器模式) ---- 加个“适配器”以便于复用将一个类的接口转换成客户希望的另一个接口.Adapter模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作. 应用场景如果 ...

【转】Impala 中的 Invalidate Metadata 和 Refresh

【转】Impala 中的 Invalidate Metadata 和 Refresh的更多相关文章

随机推荐

热门专题