Greenplum列存压缩表索引机制

webcandy 2024-07-16 15:22:29 原文

列存压缩表，简称AOCS表

数据生成

create table testao(date text, time text, open float, high float,                                                                                                                           low float, volume int) with(APPENDONLY=true,ORIENTATION=column);

create index testao_idx on testao using btree (volume);

insert into testao select t, t, t, t, t, t from generate_series(1, 1000000) as t;

现象

执行计划如下：

postgres=> explain select * from testao where volume = 100 limit 1;

                                                 QUERY PLAN

------------------------------------------------------------------------------------------------------------

 Limit  (cost=100.95..200.98 rows=1 width=40)

   ->  Gather Motion 4:1  (slice1; segments: 4)  (cost=100.95..200.98 rows=1 width=40)

         ->  Limit  (cost=100.95..200.96 rows=1 width=40)

               ->  Bitmap Append-Only Column-Oriented Scan on testao  (cost=100.95..200.96 rows=1 width=40)

                     Recheck Cond: volume = 100

                     ->  Bitmap Index Scan on testao_idx  (cost=0.00..100.95 rows=1 width=0)

                           Index Cond: volume = 100

 Settings:  effective_cache_size=8GB; gp_statistics_use_fkeys=on

 Optimizer status: legacy query optimizer

(9 rows)

我们看到使用Bitmap Index Scan索引扫描

如何通过索引找到数据

索引页包含记录的tid，而tid包含segfileno和rownum信息，通过segfileno可以定位到文件，通过rownum可以定位到block及具体值。

如何通过rownum快速定位到block

对于索引，GP将会创建一个pg_aoblkdi_oid辅助表(block directory)，里面包含每个block在文件的偏移位置fileOffset、segfileno、firstRowNum，并在firstRowNum列上创建索引，只要给出一个rownum，通过索引在pg_aoblkdi_oid辅助表中可以快速得到block在文件的偏移位置fileOffset，然后取出数据。

扫描方式的选择

为什么AOCS表使用的索引方法是Bitmap Index Scan，而不是我们常见的Index Scan呢？

AO表的扫描方向只能从前往后，而不能从后往前，heap表从前往后、从后往前都是支持的。通过索引找到的数据在AO文件位置并不是从前往后顺序的。如图所示，假设我们的条件是id<=7，通过索引找到的记录的顺序是1,3,5,7。如果是Index Scan，那么就要先从fileOffset位置扫描到第三个位置找到value=1，然后继续扫描到第四个位置value=3，然后继续从fileOffset位置开始扫描第一个位置value=5，继续扫描到第二个位置value=7，可以看到使用Index Scan可能会有多次回头重新开始扫描，增加了IO。为了避免这个问题，只使用Bitmap Index Scan，将会先扫描所有满足索引的值，然后按照tid排序，按照rownum从小到大扫描，一次从前往后扫描就可以得到索引对应的值了。

Greenplum列存压缩表索引机制的更多相关文章

Greenplum 行存、列存，堆表、AO表的原理和选择
转载自: https://github.com/digoal/blog/blob/master/201708/20170818_02.md?spm=a2c4e.11153940.blogcont179 ...
(转)Mysql技术内幕InnoDB存储引擎－表&索引算法和锁
表原文:http://yingminxing.com/mysql%E6%8A%80%E6%9C%AF%E5%86%85%E5%B9%95innodb%E5%AD%98%E5%82%A8%E5%BC% ...
MySQL技术内幕InnoDB存储引擎（表&索引算法和锁）
表 4.1.innodb存储引擎表类型 innodb表类似oracle的IOT表(索引聚集表-indexorganized table),在innodb表中每张表都会有一个主键,如果在创建表时没有显示 ...
带你走进神一样的Elasticsearch索引机制
更多精彩内容请看我的个人博客前言相比于大多数人熟悉的MySQL数据库的索引,Elasticsearch的索引机制是完全不同于MySQL的B+Tree结构.索引会被压缩放入内存用于加速搜索过程,这一 ...
MySQL索引机制(详细+原理+解析)
MySQL索引机制永远年轻,永远热泪盈眶一.索引的类型与常见的操作前缀索引 MySQL 前缀索引能有效减小索引文件的大小,提高索引的速度.但是前缀索引也有它的坏处:MySQL 不能在 ORDER ...
myisam压缩（前缀压缩）索引
myisam使用前缀压缩来减少索引的大小,从而让更多的索引可以放入内存中,默认只压缩字符串,但通过参数配置也可以对整数做压缩,myisam压缩每个索引块的方法是,先完全保存索引块中的第一个值,然后将其 ...
Mysql索引机制(B+Tree)
1,索引谁实现的: 索引是搜索引擎去实现的,在建立表的时候都会指定,搜索引擎是一种插拔式的,根据自己的选择去决定使用哪一个. 2,索引的定义: 索引是为了加速对表中数据行的检索而创建的一种分散存储的( ...
mysql索引之八：myisam压缩（前缀压缩）索引
myisam使用前缀压缩来减少索引的大小,从而让更多的索引可以放入内存中,默认只压缩字符串,但通过参数配置也可以对整数做压缩,myisam压缩每个索引块的方法是,先完全保存索引块中的第一个值,然后将其 ...
MySql 表索引设计原则
索引的优点 1.加快数据的检索速度,这是创建索引的最主要的原因; 2.通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性; 3.加速表和表之间的连接; 4.在使用分组和排序子句进行数据检索时,可 ...

随机推荐

IP和端口查询
今天无意中看到了str_split这个函数
前2天做广点通统计接口进行回调时需要加密,其中Python对字符串遍历很方便. s = 'abcd' for ch in s: print ch 但是PHP我想了半天还是老样子for循环之类的: &l ...
php--理解PHP的依赖注入和laravel的服务容器
写在前面为了了解laravel的服务容器在网上搜了许多文章,其中大多数都有其侧重点,没有很系统的一套东西以供参考,看完之后仍觉似乎少了一根把他们串起来的绳子,近期有幸拜读了陈昊的<Larave ...
TC1.6SourceCode java课程表
/** * @version 2.0 * @author sharks */ /** * Instruction * this version will use IO * apply file to ...
Git应用详解第三讲：本地分支的重要操作
前言前情提要:Git应用详解第二讲:Git删除.修改.撤销操作分支是git最核心的操作之一,了解分支的基本操作能够大大提高项目开发的效率.这一讲就来介绍一些分支的常见操作及其基本原理. 一.分支概 ...
计算机网络协议，TCP数据报的分析
一.TCP协议的特点 TCP是面向连接的运输层协议:即应用程序在使用TCP协议通信之前,要先建立TCP连接,通信结束后必须释放已建立的TCP连接每一条TCP连接只能有两个端点:即TCP是点对点(一对 ...
linux之进程管理（二）
一.查看进程 ps aux 查看系统所有的进程数据 ps -lA 查看所有系统的数据 ps axjf 连同部分进程树状态 ps参数 -A 显示所有进程,等效 -e -a 不与ter ...
Python Requests-学习笔记(11)-请求与响应对象
任何时候调用requests.*()你都在做两件主要的事情.其一,你在构建一个 Request 对象, 该对象将被发送到某个服务器请求或查询一些资源.其二,一旦 requests 得到一个从服务器返 ...
spark 大杂烩
累加器 val dataRdd = sc.makeRDD(List(1, 2, 3, 4), 2) var sum = 0 //累加器可以收集driver和各个excuter中累加的结果 //如果此处 ...
Linux忘记密码解决方案
Linux 忘记密码解决方法很多朋友经常会忘记Linux系统的root密码,linux系统忘记root密码的情况该怎么办呢?重新安装系统吗?当然不用!进入单用户模式更改一下root密码即可. 步骤如 ...