Index Scan涉及到两部分的内容Heap Only Tuple和index-only-scan。

什么是Heap Only Tuple（HOT）？

例如：Update a Row Without HOT

testdb=# \d tbl

                Table "public.tbl"

 Column |  Type   | Collation | Nullable | Default

--------+---------+-----------+----------+---------

 id     | integer |           | not null |

 data   | text    |           |          |

Indexes:

    "tbl_pkey" PRIMARY KEY, btree (id)

假设更新一条数据

testdb=# UPDATE tbl SET data = 'B' WHERE id = 1000;

如果没有HOT机制，则不仅仅增加一个新的元组Tuple2，而且还增加了一个Index元组,如下图所示

如果Update a Row With HOT，那么更新后会怎样？

根据上图仅仅增加一个新的元组Tuple2。

同时Tuple1被设置了HEAP_HOT_UPDATED, Tuple2被设置了HEAP_ONLY_TUPLE.

更新后数据是怎么通过Index检索到的?

根据图（a）Before Pruning ，通过Index找到Tuple1，再根据Tuple1中的t_ctid找到Tupe2。此时会读取到两个元组Tuple1和Tuple2,根据MVCC机制决定读取Tupel1还是Tuple2.

上述的查找过程会带来问题：如果dead Tuple被删除了如：Tuple1，此时通过index就无法找到Tuple2.

为了解决这个问题，在合适的时候，PostgreSQL会像图（b）After Pruning中所示的现将Header中“1”指向“2”，再将“2”指向Tuple2. 这就被称为“Pruning”。

具体的执行时间可参考

https://github.com/postgres/postgres/blob/master/src/backend/access/heap/README.HOT

SELECT, UPDATE, INSERT and DELETE文被执行的时候，会进行pruning 处理。

![avatar]https://img2018.cnblogs.com/blog/1922961/202001/1922961-20200117160110815-2048897544.png)

在适当的时候，PostgreSQL会删除dead Tuple。PostgreSQL中被称为“Defragmentation”

注意：Defragmentation 的花费比VACUUM的花费要小，因为Defragmentation处理并不删除Index Tuple

下面的两个场景不适用于HOT

（1）更新的元组和旧的原组不在一个page上，比如下图的图a此时需要增加一个新的Index Tuple指向新的Tuple

（2）如果Index值被更新了，这时需在Index page中新增一个Index Tuple

HOT相关的统计信息可参考统计表pg_stat_all_tables

什么是Index-Only Scan？

为了降低I/O(Input/Output)的花费，当SELECT的目标列就是index 列时，直接使用Index key不去使用Table page。

例如下表

testdb=# \d tbl

      Table "public.tbl"

 Column |  Type   | Modifiers

--------+---------+-----------

 id     | integer |

 name   | text    |

 data   | text    |

Indexes:

    "tbl_idx" btree (id, name)

表中已经插入的两个元组：

‘Tuple_18’, id的值是 ‘18’，name 的值是 ‘Queen’,这个元组存储在第0个 page.

‘Tuple_19’, id的值是‘19’， name 的值是 ‘BOSTON’, 这个元组存储在第1个 page

执行下面的SELECT文

testdb=# SELECT id, name FROM tbl WHERE id BETWEEN 18 and 19;

 id |  name

----+--------

 18 | Queen

 19 | Boston

(2 rows)

具体的过程如下：

这个查询要获取id, name这两列的值，并且"tbl_idx"是由这两列组成的。所以使用index scan。

咋看下是不需要获取table page的，因为index tuple已经包含需要的值了。

但是由于PostgreSQL还需要check元组的可见性visibility，index tuple中并不含有可见性visibility的信息（heap Tuple中才有的t_xmin and t_xmax 信息）。所以PostgreSQL不得不去使用table data。

为了解决这个问题，PostgreSQL使用了visibility map记录表的可见性，如下图。

如果所有tuple存储的page是可见的，PostgreSQL就直使用index key不去使用table page。否则的话，就去读table page检查其可见性。

在本例中Tuple_18直接使用index key，Tuple_19则需要使用table page检查其可见性。

参考资料：http://www.interdb.jp/pg/pgsql07.html

PostgreSQL内核学习笔记十一（索引）的更多相关文章

PostgreSQL内核学习笔记四（SQL引擎）
PostgreSQL实现了SQL Standard2011的大部分内容,SQL处理是数据库中非常复杂的一部分内容. 本文简要介绍了SQL处理的相关内容. 简要介绍 SQL文的处理分为以下几个部分: P ...
EPROCESS 进程/线程优先级句柄表 GDT LDT 页表《寒江独钓》内核学习笔记（2）
在学习笔记(1)中,我们学习了IRP的数据结构的相关知识,接下来我们继续来学习内核中很重要的另一批数据结构: EPROCESS/KPROCESS/PEB.把它们放到一起是因为这三个数据结构及其外延和w ...
python3.4学习笔记(十一) 列表、数组实例
python3.4学习笔记(十一) 列表.数组实例 #python列表,数组类型要相同,python不需要指定数据类型,可以把各种类型打包进去#python列表可以包含整数,浮点数,字符串,对象#创建 ...
Linux内核学习笔记-2.进程管理
原创文章,转载请注明:Linux内核学习笔记-2.进程管理) By Lucio.Yang 部分内容来自:Linux Kernel Development(Third Edition),Robert L ...
Linux内核学习笔记-1.简介和入门
原创文章,转载请注明:Linux内核学习笔记-1.简介和入门 By Lucio.Yang 部分内容来自:Linux Kernel Development(Third Edition),Robert L ...
Linux内核学习笔记二——进程
Linux内核学习笔记二——进程一进程与线程进程就是处于执行期的程序,包含了独立地址空间,多个执行线程等资源. 线程是进程中活动的对象,每个线程都拥有独立的程序计数器.进程栈和一组进程寄存器 ...
20135316王剑桥Linux内核学习笔记
王剑桥Linux内核学习笔记 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 计算机是如何工作的个人理 ...
Go语言学习笔记十一：切片（slice）
Go语言学习笔记十一: 切片(slice) 切片这个概念我是从python语言中学到的,当时感觉这个东西真的比较好用.不像java语言写起来就比较繁琐.不过我觉得未来java语法也会支持的. 定义切片 ...
KTHREAD 线程调度 SDT TEB SEH shellcode中DLL模块机制动态获取《寒江独钓》内核学习笔记（5）
目录 . 相关阅读材料 . <加密与解密3> . [经典文章翻译]A_Crash_Course_on_the_Depths_of_Win32_Structured_Exception_Ha ...

随机推荐

Docker基础内容之资源限制
内存限制 --memory:内存限定,格式是数字加单位,单位可以为 B.K.M.G.最小为 4M. --memory-swap:交换分区大小限定 CPU限制 --cpus:表示分配给容器可用的cpu资 ...
Rabbitmq | ConnectionException:Connection refused: connect
案例今天完成了Rabbitmq的搭建,调用本地mq服务器是可以的,但是在本地调用远程mq发现出现了connectionException异常,使用的是默认端口5672,具体情况如下图解决方案修改 ...
HTTP协议简单理解
1.概念: “超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议.所有的WWW文件都必须遵守这个标准. 设计HTTP最初的目的是为了 ...
cmd 重定向
关于cmd 命令的重定向输出 2>&1 mycommand >mylog.txt 2>&1 应该是最经典的用法了. 命令的结果可以通过" %> &qu ...
mod3 如何用硬件实现
今天接到Qualcom 的电话面试,表现很一般.Qualcom 不愧是一流的IC 设计公司,问得问题非常基础,但是非常深入! 其中问了一个如何实现模3 的问题.没有回答上来. 后来想了一下,其实非常简 ...
windows 使用ssh连接docker容器
在Windows上搭建docker服务器需要在Windows模拟一个Linux平台,然后在Linux平台上搭建的docker服务器,所以在使用ssh工具连接docker容器的时候,使用的ip地址不是d ...
关于SQL Server 2012 手动安装帮助文档
大家以为安装帮助文档很简单,但是其实不然,这其中还有那么一点点道道.今天我就来给大家演示一下! 首先到microsoft官网上下载Microsoft SQL Server 2012 产品文档,然后将. ...
《Python学习手册第五版》 -第8章列表与字典
前面已经讲过数值类型(第5章)和字符串类型(第7章),本章继续其他数据类型的讲解:列表和字典本章的核心内容 1.列表 1)什么是列表 2)基本列表操作 3)列表迭代和推导 4)索引.分片和矩阵 5) ...
【UEFI】--- 探究BIOS NvRam空间的的位置以及大小
按照国际惯例--先上问题:1. 什么是NvRam空间,里面存储了什么数据 2. 如何找到NvRam空间在BIOS-bin文件中的位置 NvRam空间的学名为: Non-Volatile Ram即非易失 ...
【C++】C++程序加载lib静态库
使用Visual Studio 编写C++程序有几种配置lib的方法,以下是在代码中加载lib文件的方法: 在项目所在目录下创建文件夹lib,将lib文件此路径下,包括Debug和Release两种模 ...

PostgreSQL内核学习笔记十一（索引）

什么是Heap Only Tuple（HOT）？

什么是Index-Only Scan？

PostgreSQL内核学习笔记十一（索引）的更多相关文章

随机推荐

热门专题