17年的旧文,最近因为SageDB论文而重读. 文章主要思路是通过学习key的顺序.结构等来预测record在位置.存在与否等.效果方面,据称部分场景下,相对b-tree可以优化70%的内存占用. 最大价值其实在于使用ML来优化(索引)系统这个新的方向. Range Index 审视下btree查找完成的功能:输入一个key,每次选出一个可能的范围(分支节点),直到最后命中(叶子节点).这其实跟ML中模型类似. 换句话说,若能估算出数据的累积分布(记作F),那么查询key所在位置,也可以看成是…