B树

概述

动机: B树实现高速I/O

640K如何"满足"任何实际需求了-- 源自比尔·盖茨的一个笑话

前提知识

  1. 高速缓存

    • 为什么高速缓存有效?

      • 不同容量的存储器,访问速度差异悬殊,磁盘和内存访问速度的量级相差\(>10^5\)

        • 如果将访问内存比喻为1秒,那么访问外存则相当于1天
        • 因此我们需要尽量减少IO次数
  2. 分级I/O
    • 俩个相邻存储级别之间的数据传输,统称为IO操作
    • CPU -> RAM -> DISK -> ARRAY
    • 访问速度依次递减,存储容量依次递增
    • 常用的数据要放在最前面
  3. 从磁盘读取1B和读写1KB几乎一样快

问题:

B树为什么更宽更矮

B树实际也是BST,但是其对节点的定义方式不一样, 其定义的节点为超级节点

超级节点的概念:

如果我们将2代节点合并,并把它们都踩扁了,就会拥有4路,3个关键码

同理:每d代合并,就会拥有m =2^d路,m-1个关键码

  • 多级存储系统中使用B树,可以针对外部查找,大大减少IO次数

    • 对于常规BST来说,IO次数太高

      • 对于AVL树来说,如果访问1G数据,10^9个关键码,一次只读取一个数据得到logN = 30 需要30次IO访问。
    • 对于B树来说,则批量访问数据,一次读入一个超级节点
    • 因此B树的主要目的就是为了减少IO次数

B树定义

  • m阶B树:即m路平衡搜索树

对于m阶B树来说

关键码:

  • 上限:有不超过m-1个关键码, 即n <= m - 1个关键码——

    \[ K_1 < K_2 < K_3 < ... < K_(n-1) < K_n \]

  • 下限:

    对于根节点来说,则只要有不少于1个关键码就行
    对于其他节点来说,有不少于\(\lceil \frac{m}{2} \rceil - 1 <= n\) 个关键码

分枝数

  • 上限:有不超过m个分支, 即n + 1 <= m个分支数——

    \[ A_0 < A_1 < A_2 < A_3 < ... < A_(n-1) < A_n \]

  • 下限:内部节点的分支数也不能太少

    对于根节点来说: 2 <= n + 1 "但树根是比较特殊的存在

    对于其他节点来说:有不少于\(\lceil \frac{m}{2} \rceil <= n + 1\)个分支

简单举例: