《python解释器源码剖析》第6章--python中的dict对象

6.0 序

元素和元素之间可能存在着某种关系，比如学生姓名和成绩。我希望能够通过学生的姓名找到这个学生的成绩，那么只需要将两者关联起来即可。字典正是这么做的，字典中的每个元素就是一个key:value键值对，通过指定的key可以找到value。首先我们在前面的章节中说过，字典这种数据结构，python底层也在大量的使用，比如每一个类都有自己的属性字典，这就意味着python对字典这种数据结构的性能要求是极其苛刻的。所以在python底层，对字典这种数据结构进行了高度的优化。理论上，字典查找元素的时间复杂度是O(1)。

字典底层对应的结构体是PyDictObject，其实我不说，也能猜出来。再比如set，那么底层对应的结构体显然是PySetObject。我们先不看PyDictObject，我们来想一想为什么字典的查找效率是O(1)，它底层是使用了什么原理。

6.1 哈希表

我们在tuple那一章中提到了哈希，还说tuple可以作为字典的key，list不可以，就是因为list是不可哈希的。没错，dict底层正是使用了哈希表，哈希表也叫做散列表。它是将值通过hash运算转为一个数值，这个数值来充当索引。这样解释可能会让人很迷，我们来具体看一张图。

我们发现除了key、value之外，还有一个index。其实hash表本质上也是使用了索引的思想，会把这个key通过函数映射成一个数值，作为索引。至于是怎么映射的，可以的话后面再谈，现在我们就假设是按照我们接下来说的方法映射的。

比如我们这里有一个能容纳10个元素的字典，我们先设置d["satori"]=82，那么会对satori这个字符串进行一个哈希运算，然后再对10、也就是当前的总容量取模，这样的是不是能够得到一个小于10的数呢？假设是5，那么就存在索引为5地方。然后又进行d["koishi"]=83，那么按照同样的规则运算得到8，那么就存在索引为8的位置，同理第三次设置d["mashiro"]=80，对mashiro进行哈希、取模，得到2，那么存储在索引为2的地方。

同理，当我们取值的时候，取d["satori"]，那么同样会对satori进行哈希、取模，得到索引，发现是5，直接把索引为5的value给取出来。当然这种说法肯定是不严谨的，为什么我们来想一个问题。

哈希、取模运算之后得到的结果一定是不同的吗？
在运算得到索引的时候，发现这个位置已经有人占了怎么办？
取值的时候，索引为5，可如果索引为5对应的key和我们指定获取的key不一致怎么办？

哈希值是有冲突的，如果一旦冲突，那么python底层会改变算法继续映射，直到映射出来的索引没有人用。比如我们设置一个新的key、value，d["tomoyo"]=88，可是我们对tomoyo这个key进行映射之后得到的结果也是5，而索引为5的地方已经被key=satori的键值对给占了，那么python就会换一种规则来对tomoyo进行hash运算，然后添加进去。但如果我们再次设置d["satori"]=100，那么对satori进行映射得到的结果也是5，而key是一致的，那么就会把对应的值进行修改。

同理，当我们获取值的时候，d["tomoyo"]，对key进行映射，得到索引，但是发现key不是我们指定的key，于是改变规则(这个规则跟设置值冲突时，采用的规则是一样的)，重新映射，得到索引，然后发现key是一致的，于是将值取出来。

但如果我们指定了一个不存在的key，那么哈希映射，找到对应索引，发现没有key，证明我们指定的key是不存在的。但如果有的话，发现key和我们指定的key不相等，说明我们只是碰巧撞上了，但由于key不一样，因此会改变规则重新运算，得到新的索引，发现没有对应的key，于是报错：指定的key不存在。

所以从这里就已经能说明问题了，就是把key转换成类似列表的索引。可能有人问，这些值貌似不是连续的啊，对的，肯定不是连续的。并不是说你先存，你的索引就小、就在前面，这是由key进行hash映射之后的结果决定的。而且容量有10个，目前我们只存了4个元素，那么哈希表、或者说字典会不会扩容呢？当然，既然是可变对象，当然会扩容。并且它还不是像列表那样，容量不够才扩容，而当元素个数达到容量的三分之二的时候就会扩容。

我们可以认为字典底层还是使用了索引的思想，字典不可能会像列表那样，元素之间是连续的，一个一个挨在一起的。既然是哈希运算，得到的值肯定是随机的。容量为10，尽管有6个是空着的，但是没关系，我只要保证我设置的元素整体上是有序的即可。就好比有10张桌椅，小红坐在第3张，小明坐在第8张，尽管有空着的，但是没关系，就让它空着。只要我到第3张桌椅能够找到小红、第8张可以找到小明即可。这些桌椅就可以看成是索引，只要我通过索引能够找到对应的元素即可。但是容量为10，为什么不能全部占满之后再扩容呢？试想一下，既然是随机的，那么肯定会出现哈希值碰撞，并且当元素个数到达三分之二之后，这种碰撞的概率非常大。因此当容量到达三分之二的时候，就会申请一份更大的空间，以便来容纳新的元素。

所以我们发现哈希表实际上就是一种空间换时间的方法，如果容量为100，那么就相当于有100个位置，每个元素都进行哈希映射，找到自己的位置。各自的位置都是不固定的，也许会空出来很多元素，但是无所谓，只要保证这些元素在100个位置上是相对有序、通过哈希运算得到索引之后，可以在相应的位置找到它即可。

所以相信应该所有人都能明白为什么哈希表的时间复杂度是O(1)了，就实际因为转化成了索引，每一个索引都是连续的，只不过一部分索引没有相应的key、value罢了。但这无所谓，因为索引和key、value是一一对应的，通过索引我们能瞬间定位到指定的key，再来检测key是否存在以及和我们指定的key是否一致。如果不存在，那么不好意思，证明这个地方根本没有key、value，说明我们指定了一个不存在的key。而且由于元素个数达到容量的三分之二的时候，碰撞的概率非常大，因此几乎不可能出现容量正好都排满的情况，否则那要改变规则、重复映射多少次啊。

一句话总结：哈希表就是一种空间换时间的方法

关于哈希表设置元素、和获取元素用流程图表示的话，就是：

6.2 PyDictObject对象

字典中的一个key、value，我们在底层会把它称之为一个entry，至于为什么？我们后面在源码中可以看到

typedef struct _dictkeysobject PyDictKeysObject;
/* The ma_values pointer is NULL for a combined table
 * or points to an array of PyObject* for a split table
 对于一张combined table，ma_values指针为NULL
 对于一张split table，则指向一个数组，数组里面都是PyObject *
 */
typedef struct {
    //注意这是PyObject_HEAD,不是PyObject_VAR_HEAD
    //PyObject_HEAD只有引用计数和类型，没有ob_size
    PyObject_HEAD
    //字典里面元素的个数，active
    Py_ssize_t ma_used;
    /* Dictionary version: globally unique, value change each time
       the dictionary is modified
       字典版本：全局唯一，每一次value的变动，都会导致其改变
    */
    uint64_t ma_version_tag;
    /*
    如果ma_values为NULL，这是一张combined table，所有的key和value都存在ma_keys里面
    */
    PyDictKeysObject *ma_keys;
    /*
	   如果ma_values不为NULL，这是一张split table，那么key都存在ma_keys里
	   所有的values都存在ma_values这个数组里
	*/
    PyObject **ma_values;
} PyDictObject;
//不管装在设么地方，我们看到存储的都是PyObject *
//说明字典是什么都可以装的(不可变类型)

但是说实话，直接这么看是很难看懂的，然而我们发现有一个PyDictKeysObject *，而这个家伙就是_dictkeysobject，从最上面的typedef struct也能看出来，我们来看看这个_dictkeysobject是什么吧

//Objects/dict-common.h
struct _dictkeysobject {
    //引用计数
    Py_ssize_t dk_refcnt;
    /* Size of the hash table (dk_indices). It must be a power of 2. */
    /* 哈希表的大小，必须是2的倍数 */
    Py_ssize_t dk_size;
    /* 与哈希表有关的函数 */
    dict_lookup_func dk_lookup;
    /* Number of usable entries in dk_entries. */
    /* dk_entries中可用的entries数量 */
    Py_ssize_t dk_usable;
    /* Number of used entries in dk_entries. */
    /* dk_entries中已经使用的entries数量 */
    Py_ssize_t dk_nentries;
    /* Actual hash table of dk_size entries. It holds indices in dk_entries,
       or DKIX_EMPTY(-1) or DKIX_DUMMY(-2).
       Indices must be: 0 <= indice < USABLE_FRACTION(dk_size).
       The size in bytes of an indice depends on dk_size:
       Dynamically sized, SIZEOF_VOID_P is minimum. */
    //最终的哈希表，它存储了dk_entries的索引
    //里面的类型是会随着dk_size的大小而变化的
    /*
       - 1 byte if dk_size <= 0xff (char*)
       - 2 bytes if dk_size <= 0xffff (int16_t*)
       - 4 bytes if dk_size <= 0xffffffff (int32_t*)
       - 8 bytes otherwise (int64_t*)
    */
    char dk_indices[];  /* char is required to avoid strict aliasing. */
    /* "PyDictKeyEntry dk_entries[dk_usable];" array follows:
       see the DK_ENTRIES() macro */
};
//我们一直提到了dk_entries，这又是个啥？
//dk_entries是一个数组，里面的元素类型是PyDictKeyEntry，就是一个一个的键值对
//所以我们把某个键值对称之为一个entry，它的大小可以用USABLE_FRACTION这个宏来获取
typedef struct {
    /* me_key的哈希值，避免每次查询的时候都要重新建立 */
    Py_hash_t me_hash;
    //字典的key
    PyObject *me_key;
    //这个字段只对combined table有意义
    /*
    还记得ma_values吗？上面说了如果是combined table，那么key和value都会存在PyDictKeysObject *ma_keys里面，但如果是split table，那就只有key会存在PyDictKeysObject *ma_keys里面，也就是这里me_key，所以这里注释了：me_value这个字段只对combined table有意义。因为是split table的话，value都会存储在ma_values里面，而不是这里的me_value
    */
    PyObject *me_value; /* This field is only meaningful for combined tables */
} PyDictKeyEntry;

因此可以看到字典的定义还是蛮复杂的，但是仔细分析还是可以看懂的。PyDictObject里面有一个ma_values，如果是combined table，那么这个值是为NULL，key和value是放在PyDictKeyEntry里面的，由me_key和me_value存储，这当然也是一个PyObject *指针类型。如果是split table，那么ma_values则是一个数组，存储所有value，当然这里的value也是指针，PyDictKeyEntry则只存储key。而哈希表还要对应一个索引啊，这个索引都是放在PyDictKeysObject里面的。

6.2.1 再谈哈希表

从6.1中，我们知道了哈希表的基本思想，就是通过某个函数将需要搜索的键值映射为一个索引，然后通过索引去访问连续的内存区域。而对于哈希表这种数据结构，最终目的就是加速键的搜索过程。而用于映射的函数就是哈希函数，映射之后的值就是哈希值。因此在哈希表的实现中，哈希函数的优劣将直接决定实现的哈希表的搜索效率的高低。

并且我们知道，当元素到达容量的三分之二的时候，会很容易出现哈希值冲突，我们之前说如果冲突了，就改变规则重新映射。事实上，python也确实是这么做的，这种方法叫做开放寻址法。

当发生哈希值冲突时，python会通过一个二次探测函数f，计算下一个候选位置addr，如果可用就插入进去。如果不可用，会继续使用探测函数，直到找到一个可用的位置。

通过多次使用探测函数f，从一个位置可以到达多个位置，我们认为这些位置形成了一个"冲突探测链(探测序列)"，比如当我们插入一个key="satori"的键值对，在a位置发现不行，又走b位置，发现也被人占了，于是到达c位置，发现没有key，于是就占了c这个位置。但是问题来了，如果我此时把b位置上键值对给删掉会引发什么后果？首先我们知道，b位置上的key和我们指定的值为"satori"的key通过哈希函数映射出来的索引是一样的，当我们直接获取d["satori"]，肯定会先走a位置，发现有人但key又不是"satori"，于是重新映射，走到b，发现还不对，再走到c位置，发现key是"satori"，于是就把值取出来了。但是，我要说但是了，如果我们把b位置上的元素删掉呢？那么老规矩，获取、映射、走到a发现坑被占、走到b结果发现居然没有内容，那么直接就报出了一个KeyError。继续寻找的前提是，这个地方要存储了key、value，并且存在的key和指定的key不相同，但如果没有的话，就说明根本没有这个key。然而呢？"satori"这个key确实是存在的，因此发生这种情况我们就说探测链断裂。本来应该走到c的，但是由于b没有元素，因此探测函数在b处就停止了

因此我们发现，当一个元素只要位于任何一条探测链当中，在删除元素时都不能真正意义上的删除，而是一种"伪删除"操作

6.2.2 entry的三种状态

还记得这个entry吗？对于字典里面的一个键值对就叫做一个entry

typedef struct {
    Py_hash_t me_hash;
    PyObject *me_key;
    PyObject *me_value;
} PyDictKeyEntry;

在python中，当一个PyDictObject对象发生变化时，其中的entry会在三种不同的状态之间进行切换：unused态、active态、dummy态。

当一个entry的me_key和me_value都是NULL的时候，entry处于unused态。unused态表明该entry中并没有存储key、value，并且在此之前也没有存储过它们。每一个entry在初始化的时候都会处于这个状态，me_value不管何时都可能会NULL，这取决于到底是combined table、还是split table，但是对于me_key，只可能在unused的时候才可能会NULL。
当entry存储了key时，那么此时entry便从unused态变成了active态
当entry中的key(value)被删除后，状态便从active态变成dummy态，注意：这里是dummy，删除了并不代表就能够回到unused态，来存储其他key了。我们也说了，unused态是指当前没有、并且之前也没有存储过。key被删除后，会变成dummy。否则就会发生我们之前说的探测链断裂，至于这个dummy到底是啥，我们后面说。总是entry进入dummy态，就是我们刚才提到的伪删除技术，当python沿着某条探测链搜索时，如果发现一个entry处于dummy态，就会明白虽然当前的entry是无效的，但是后面的entry可能是有效的，而不会直接就停止搜索、报错，这样就保证了探测链的连续性。至于报错，是在找到了unused状态的entry时才会报错，因为这里确实一直都没有存储过key，但是索引确实是这个位置，这说明当前指定的key就真的不存在哈希表中，此时才会报错。

6.3 PyDictObject的创建与维护

6.3.1 PyDictObject的创建

python内部通过PyDict_New来创建一个新的dict对象。

PyObject *
PyDict_New(void)
{
    //new_keys_object表示创建PyDictKeysObject*对象
    //里面传一个数值，表示entry的容量
    //#define PyDict_MINSIZE 8，从宏定义我们能看出来为8
    //表示默认初始化能容纳8个entry的PyDictKeysObject
    //为什么是8，这是通过大量的经验得来的。
    PyDictKeysObject *keys = new_keys_object(PyDict_MINSIZE);
    if (keys == NULL)
        return NULL;
    //这一步则是根据PyDictKeysObject *创建一个新字典
    return new_dict(keys, NULL);
}
static PyDictKeysObject *new_keys_object(Py_ssize_t size)
{
    PyDictKeysObject *dk;
    Py_ssize_t es, usable;
    //检测，size是否>=PyDict_MINSIZE
    assert(size >= PyDict_MINSIZE);
    assert(IS_POWER_OF_2(size));
    usable = USABLE_FRACTION(size);
    //es：哈希表中的每个索引占多少字节
    if (size <= 0xff) {
        es = 1;
    }
    else if (size <= 0xffff) {
        es = 2;
    }
#if SIZEOF_VOID_P > 4
    else if (size <= 0xffffffff) {
        es = 4;
    }
#endif
    else {
        es = sizeof(Py_ssize_t);
    }
    //注意到，字典里面也有缓冲池，当然这里指定是字典的key
    //如果有的话，直接从里面取
    if (size == PyDict_MINSIZE && numfreekeys > 0) {
        dk = keys_free_list[--numfreekeys];
    }
    else {
        //否则malloc重新申请
        dk = PyObject_MALLOC(sizeof(PyDictKeysObject)
                             + es * size
                             + sizeof(PyDictKeyEntry) * usable);
        if (dk == NULL) {
            PyErr_NoMemory();
            return NULL;
        }
    }
    //设置引用计数、可用的entry个数等信息
    DK_DEBUG_INCREF dk->dk_refcnt = 1;
    dk->dk_size = size;
    dk->dk_usable = usable;
    //dk_lookup很关键，里面包括了哈希函数和冲突时的二次探测函数的实现
    dk->dk_lookup = lookdict_unicode_nodummy;
    dk->dk_nentries = 0;
    //哈希表的初始化
    memset(&dk->dk_indices[0], 0xff, es * size);
    memset(DK_ENTRIES(dk), 0, sizeof(PyDictKeyEntry) * usable);
    return dk;
    /*
    keys.entries和values按照顺序
    */
}
static PyObject *
new_dict(PyDictKeysObject *keys, PyObject **values)
{
    PyDictObject *mp;
    assert(keys != NULL);
    //这是一个字典的缓冲池
    if (numfree) {
        mp = free_list[--numfree];
        assert (mp != NULL);
        assert (Py_TYPE(mp) == &PyDict_Type);
        _Py_NewReference((PyObject *)mp);
    }
    //系统堆中申请内存
    else {
        mp = PyObject_GC_New(PyDictObject, &PyDict_Type);
        if (mp == NULL) {
            DK_DECREF(keys);
            free_values(values);
            return NULL;
        }
    }
    //设置key、value等等
    mp->ma_keys = keys;
    mp->ma_values = values;
    mp->ma_used = 0;
    mp->ma_version_tag = DICT_NEXT_VERSION();
    assert(_PyDict_CheckConsistency(mp));
    return (PyObject *)mp;
}

6.3.2 PyDictObject的元素搜索

python为哈希表搜索提供了多种函数，lookdict、lookdict_unicode、lookdict_index，一般通用的是lookdict，lookdict_unicode则是专门针对key为unicode的entry，lookdict_index针对key为int的entry，可以把lookdict_unicode、lookdict_index看成lookdict的特殊实现，只不过这两种可以非常的常用，因此单独实现了一下。

注意:我们无论是对字典设置值还是获取值，都需要进行搜索策略。我们来看看lookdict的底层实现

static Py_ssize_t _Py_HOT_FUNCTION
lookdict(PyDictObject *mp, PyObject *key,
         Py_hash_t hash, PyObject **value_addr)
{
    size_t i, mask, perturb;
    //keys数组的首地址
    PyDictKeysObject *dk;
    //entries数组的首地址
    PyDictKeyEntry *ep0;
top:
    dk = mp->ma_keys;
    ep0 = DK_ENTRIES(dk);
    mask = DK_MASK(dk);
    perturb = hash;
    //哈希，定位探测链冲突的第一个entry的索引
    i = (size_t)hash & mask;
    for (;;) {
        // dk->indecs[i]
        Py_ssize_t ix = dk_get_index(dk, i);
        //如果ix == DKIX_EMPTY，说明没有存储值
        //理论上是报错的，但是在底层是将值的指针设置为NULL
        if (ix == DKIX_EMPTY) {
            *value_addr = NULL;
            return ix;
        }
        if (ix >= 0) {
            //拿到指定的entry的指针
            PyDictKeyEntry *ep = &ep0[ix];
            assert(ep->me_key != NULL);
            //如果两个key一样，那么直接将值的地址设置为ep->me_value
            /*
            但是注意这里的一样，相当于在python中，两个地址一样的对象
            也就是说，a is b是为True
            */
            if (ep->me_key == key) {
                *value_addr = ep->me_value;
                return ix;
            }
            //如果两个对象不一样，那么就比较它们的哈希值是否相同
            //比如33和33是一个对象，但是3333和3333却不是，但是它们的值是一样的
            //因此先判断id是否一致，如果不一致再比较值是否一样，当然这里是哈希值
            if (ep->me_hash == hash) {
                PyObject *startkey = ep->me_key;
                Py_INCREF(startkey);
                int cmp = PyObject_RichCompareBool(startkey, key, Py_EQ);
                Py_DECREF(startkey);
                if (cmp < 0) {
                    *value_addr = NULL;
                    return DKIX_ERROR;
                }
                if (dk == mp->ma_keys && ep->me_key == startkey) {
                    if (cmp > 0) {
                        *value_addr = ep->me_value;
                        return ix;
                    }
                }
                else {
                    /* The dict was mutated, restart */
                    goto top;
                }
            }
        }
        //如果条件均不满足，调整姿势，进行下一次探索
        perturb >>= PERTURB_SHIFT;
        i = (i*5 + perturb + 1) & mask;
    }
    Py_UNREACHABLE();
}

6.3.4 插入元素

我们对PyDictObject对象的操作都是建立在搜索的基础之上的，插入和删除也不例外。

static int
insertdict(PyDictObject *mp, PyObject *key, Py_hash_t hash, PyObject *value)
{
    PyObject *old_value;
    PyDictKeyEntry *ep;
    //增加对key和value的引用计数
    Py_INCREF(key);
    Py_INCREF(value);
    //类型检查
    if (mp->ma_values != NULL && !PyUnicode_CheckExact(key)) {
        if (insertion_resize(mp) < 0)
            goto Fail;
    }
    Py_ssize_t ix = mp->ma_keys->dk_lookup(mp, key, hash, &old_value);
    if (ix == DKIX_ERROR)
        goto Fail;
    assert(PyUnicode_CheckExact(key) || mp->ma_keys->dk_lookup == lookdict);
    MAINTAIN_TRACKING(mp, key, value);
    /* 检查共享key，可能扩容哈希表
     */
    if (_PyDict_HasSplitTable(mp) &&
        ((ix >= 0 && old_value == NULL && mp->ma_used != ix) ||
         (ix == DKIX_EMPTY && mp->ma_used != mp->ma_keys->dk_nentries))) {
        if (insertion_resize(mp) < 0)
            goto Fail;
        ix = DKIX_EMPTY;
    }
	//搜索成功
    if (ix == DKIX_EMPTY) {
        /* 插入一个新的slot，这个slot可以直接看成是entry */
        assert(old_value == NULL);
        if (mp->ma_keys->dk_usable <= 0) {
            /* 需要resize */
            if (insertion_resize(mp) < 0)
                goto Fail;
        }
        //寻找值的插入位置，就是我们之前说的将key这个值通过哈希函数映射为索引
        Py_ssize_t hashpos = find_empty_slot(mp->ma_keys, hash);
        //拿到PyDictKeyEntry *指针
        ep = &DK_ENTRIES(mp->ma_keys)[mp->ma_keys->dk_nentries];
        //设置
        dk_set_index(mp->ma_keys, hashpos, mp->ma_keys->dk_nentries);
        ep->me_key = key; //设置key
        ep->me_hash = hash;//设置哈希
        //如果ma_values数组不为空
        if (mp->ma_values) {
            assert (mp->ma_values[mp->ma_keys->dk_nentries] == NULL);
            //设置进去，还记得这是什么表吗？对，这是一张split table
            mp->ma_values[mp->ma_keys->dk_nentries] = value;
        }
        else {
            //ma_values数据为空的话，那么value就设置在PyDictKeyEntry对象的me_value里面
            ep->me_value = value;
        }
        mp->ma_used++;//使用个数+1
        mp->ma_version_tag = DICT_NEXT_VERSION();//版本数+1
        mp->ma_keys->dk_usable--;//可用数-1
        mp->ma_keys->dk_nentries++;//里面entry数量+1
        assert(mp->ma_keys->dk_usable >= 0);
        assert(_PyDict_CheckConsistency(mp));
        return 0;
    }
    //判断key是否存在，存在即替换
    if (_PyDict_HasSplitTable(mp)) {
        mp->ma_values[ix] = value;
        if (old_value == NULL) {
            /* pending state */
            assert(ix == mp->ma_used);
            mp->ma_used++;
        }
    }
    else {
        assert(old_value != NULL);
        DK_ENTRIES(mp->ma_keys)[ix].me_value = value;
    }
    mp->ma_version_tag = DICT_NEXT_VERSION();
    Py_XDECREF(old_value); /* which **CAN** re-enter (see issue #22653) */
    assert(_PyDict_CheckConsistency(mp));
    Py_DECREF(key);
    return 0;
Fail:
    Py_DECREF(value);
    Py_DECREF(key);
    return -1;
}

以上是插入元素，我们看到无论是插入元素、还是设置元素，insertdict都是可以胜任。但是请注意一下参数，有一个hash参数，这个hash是从什么地方获取的呢？答案是，在调用这个insertdict之前其实会首先调用PyDict_SetItem

int
PyDict_SetItem(PyObject *op, PyObject *key, PyObject *value)
{
    PyDictObject *mp;
    Py_hash_t hash;
    if (!PyDict_Check(op)) {
        PyErr_BadInternalCall();
        return -1;
    }
    assert(key);
    assert(value);
    mp = (PyDictObject *)op;
    //计算hash值
    if (!PyUnicode_CheckExact(key) ||
        (hash = ((PyASCIIObject *) key)->hash) == -1)
    {
        //
        hash = PyObject_Hash(key);
        if (hash == -1)
            return -1;
    }
    /* 调用insertdict，必要时调整元素 */
    return insertdict(mp, key, hash, value);
}

我们说如果entry个数达到容量的三分之二，那么会调整容量，如何调整呢？

//增长率
#define GROWTH_RATE(d) ((d)->ma_used*3)
static int
insertion_resize(PyDictObject *mp)
{
    //本质上调用了dictresize，传入PyDictObject * 和增长率
    return dictresize(mp, GROWTH_RATE(mp));
}
static int
dictresize(PyDictObject *mp, Py_ssize_t minsize)
{
    //新的容量，entry的个数
    Py_ssize_t newsize, numentries;
    //老的keys
    PyDictKeysObject *oldkeys;
    //老的values
    PyObject **oldvalues;
    //老的entries，新的entries
    PyDictKeyEntry *oldentries, *newentries;
    /* 确定table的大小*/
    for (newsize = PyDict_MINSIZE;
         newsize < minsize && newsize > 0;
         newsize <<= 1)
        ;
    if (newsize <= 0) {
        PyErr_NoMemory();
        return -1;
    }
    //获取原来的所有keys
    oldkeys = mp->ma_keys;
    /* 创建能够容纳newsize个entry的内存空间 */
    mp->ma_keys = new_keys_object(newsize);
    if (mp->ma_keys == NULL) {
        //把以前的key拷贝过去。
        /*
        扩容并不是在本地扩容的，我们知道python存储的都是指针
        当扩容之后，会在另一个地方申请更大的内存，然后会把之前的内容都拷贝过去
        还是那句话，存储的是指针，不管拷贝到什么地方去，指针是不会变的，当然指针指向的值也是不会变的
        但是指针的地址会变，因为指针也是一个变量，存储的是指针， 所以叫做指针变量
        但不管咋样，总归是变量，自然也是有地址的，指针的指针就是我们所说的二级指针
        可以承认的是， 拷贝之后，这些二级指针肯定会变。
        然而在python中是体现不出来的，因为python里面没有二级指针的概念，甚至指针也没有。
        你只能通过id查看内存地址，比如列表，虽然列表里面存储的本身就是地址，但是获取的时候确实个指针指向的值。
        当然使用id查看地址，其实查看的就是列表里面的指针指向的值的地址，对，说白了就是列表里面的元素(指针)本身。
        因此地址的地址你在python中是看不到的。
        */
        mp->ma_keys = oldkeys;
        return -1;
    }
    //必须满足 可用 >= 已用
    assert(mp->ma_keys->dk_usable >= mp->ma_used);
    if (oldkeys->dk_lookup == lookdict)
        mp->ma_keys->dk_lookup = lookdict;
    //获取已用entries
    numentries = mp->ma_used;
    //获取旧信息
    oldentries = DK_ENTRIES(oldkeys);
    newentries = DK_ENTRIES(mp->ma_keys);
    oldvalues = mp->ma_values;
    //如果oldvalues不为NULL，这应该是一个combined table
    //split table的特点是key是能是unicode、
    //那么需要把split table转换成combined table
    if (oldvalues != NULL) {
        for (Py_ssize_t i = 0; i < numentries; i++) {
            assert(oldvalues[i] != NULL);
            //将ma_values数组里面的元素统统都设置到PyDictKeyEntry对象里面去
            PyDictKeyEntry *ep = &oldentries[i];
            PyObject *key = ep->me_key;
            Py_INCREF(key);
            newentries[i].me_key = key;
            newentries[i].me_hash = ep->me_hash;
            newentries[i].me_value = oldvalues[i];
        }
        //减少原来对oldkeys的引用计数
        DK_DECREF(oldkeys);
        //将ma_values设置为NULL，因为所有的value都存在了PyDictKeyEntry对象的me_value里面
        mp->ma_values = NULL;
        if (oldvalues != empty_values) {
            free_values(oldvalues);
        }
    }
    else {  // 否则的话说明这本身就是一个combined table
        if (oldkeys->dk_nentries == numentries) {
            //将就得entries拷贝到新的entries里面去
            memcpy(newentries, oldentries, numentries * sizeof(PyDictKeyEntry));
        }
        else {
            //处理旧的entries
            //active态的entry搬到新table中
            //dummy态的entry，调整key的引用计数，丢弃该entry
            PyDictKeyEntry *ep = oldentries;
            for (Py_ssize_t i = 0; i < numentries; i++) {
                while (ep->me_value == NULL)
                    ep++;
                newentries[i] = *ep++;
            }
        }
        //字典缓冲池的操作，后面介绍
        assert(oldkeys->dk_lookup != lookdict_split);
        assert(oldkeys->dk_refcnt == 1);
        if (oldkeys->dk_size == PyDict_MINSIZE &&
            numfreekeys < PyDict_MAXFREELIST) {
            DK_DEBUG_DECREF keys_free_list[numfreekeys++] = oldkeys;
        }
        else {
            DK_DEBUG_DECREF PyObject_FREE(oldkeys);
        }
    }
    //建立哈希表索引
    build_indices(mp->ma_keys, newentries, numentries);
    mp->ma_keys->dk_usable -= numentries;
    mp->ma_keys->dk_nentries = numentries;
    return 0;
}

我们再来看一下改变dict内存空间的一些动作

首先要确定table的大小，很显然这个大小一定要大于minsize，这个minsize通过我们已经看到了，是通过宏定义的，是已用entry的3倍
根据新的table，重新申请内存
将原来的处于active状态的entry拷贝到新的内存当中，而对于处于dummy状态的entry则直接丢弃。之所以可以丢弃，是因为，dummy状态的entry存在是为了保证探测链不断裂，但是现在所有的active都拷贝到新的内存当中了，它们会形成一条新的探测链，因此也就不需要这些dummy态的entry了
建立的新的索引，并且如果之前的table指向了一片系统堆的内存空间，那么我们还需要释放，以防止内存泄漏。

6.3.5 删除元素

插入元素(设置元素)如果明白了，删除元素我觉得都可以不需要说了。

int
PyDict_DelItem(PyObject *op, PyObject *key)
{
    //这显然和dictresize一样，是先获取hash值
    Py_hash_t hash;
    assert(key);
    if (!PyUnicode_CheckExact(key) ||
        (hash = ((PyASCIIObject *) key)->hash) == -1) {
        hash = PyObject_Hash(key);
        if (hash == -1)
            return -1;
    }
    //真正来删除是下面这个函数
    return _PyDict_DelItem_KnownHash(op, key, hash);
}
int
_PyDict_DelItem_KnownHash(PyObject *op, PyObject *key, Py_hash_t hash)
{
    Py_ssize_t ix;
    PyDictObject *mp;
    PyObject *old_value;
    //类型检测
    if (!PyDict_Check(op)) {
        PyErr_BadInternalCall();
        return -1;
    }
    assert(key);
    assert(hash != -1);
    mp = (PyDictObject *)op;
    //获取对应entry的index
    ix = (mp->ma_keys->dk_lookup)(mp, key, hash, &old_value);
    if (ix == DKIX_ERROR)
        return -1;
    if (ix == DKIX_EMPTY || old_value == NULL) {
        _PyErr_SetKeyError(key);
        return -1;
    }
    // split table不支持删除操作，如果是split table，需要转换成combined table
    if (_PyDict_HasSplitTable(mp)) {
        if (dictresize(mp, DK_SIZE(mp->ma_keys))) {
            return -1;
        }
        ix = (mp->ma_keys->dk_lookup)(mp, key, hash, &old_value);
        assert(ix >= 0);
    }
    //传入hash和ix，又调用了delitem_common
    return delitem_common(mp, hash, ix, old_value);
}
static int
delitem_common(PyDictObject *mp, Py_hash_t hash, Py_ssize_t ix,
               PyObject *old_value)
{
    PyObject *old_key;
    PyDictKeyEntry *ep;
    //找到对应的hash索引
    Py_ssize_t hashpos = lookdict_index(mp->ma_keys, hash, ix);
    assert(hashpos >= 0);
    //已经entries个数-1
    mp->ma_used--;
    //版本-1
    mp->ma_version_tag = DICT_NEXT_VERSION();
    //拿到entry的指针
    ep = &DK_ENTRIES(mp->ma_keys)[ix];
    //将其设置为dummy状态
    dk_set_index(mp->ma_keys, hashpos, DKIX_DUMMY);
    ENSURE_ALLOWS_DELETIONS(mp);
    old_key = ep->me_key;
    //将其key、value都设置为NULL
    ep->me_key = NULL;
    ep->me_value = NULL;
    //减少引用计数
    Py_DECREF(old_key);
    Py_DECREF(old_value);
    assert(_PyDict_CheckConsistency(mp));
    return 0;
}

流程非常清晰，也很简单。先使用PyDict_DelItem计算hash值，再使用_PyDict_DelItem_KnownHash计算出索引，最后使用delitem_common获取相应的entry，删除维护的元素，并将entry从active态设置为dummy态，同时还会调整ma_used(已用entry)的数量

6.4 PyDictObject对象缓冲池

从介绍PyLongObject的小整数对象池的时候，我们就说过，不同的对象都有自己的缓冲池，比如list，当然dict也不例外。

#ifndef PyDict_MAXFREELIST
#define PyDict_MAXFREELIST 80
#endif
static PyDictObject *free_list[PyDict_MAXFREELIST];
static int numfree = 0;

PyDictObject的缓冲池机制其实和PyListObject的缓冲池是类似的，开始时，这个缓冲池什么也没有，直到第一个PyDictObject对象被销毁时，这个PyDictObject缓冲池里面才开始接纳被缓冲的PyDictObject对象。

static void
dict_dealloc(PyDictObject *mp)
{
    //获取ma_values指针
    PyObject **values = mp->ma_values;
    //获取所有的ma_keys指针
    PyDictKeysObject *keys = mp->ma_keys;
    //两个整型
    Py_ssize_t i, n;
    //追踪、调试
    PyObject_GC_UnTrack(mp);
    Py_TRASHCAN_SAFE_BEGIN(mp)
    //调整引用计数
    if (values != NULL) {
        if (values != empty_values) {
            for (i = 0, n = mp->ma_keys->dk_nentries; i < n; i++) {
                Py_XDECREF(values[i]);
            }
            free_values(values);
        }
        DK_DECREF(keys);
    }
    else if (keys != NULL) {
        assert(keys->dk_refcnt == 1);
        DK_DECREF(keys);
    }
    //将被销毁的对象放到缓冲池当中
    if (numfree < PyDict_MAXFREELIST && Py_TYPE(mp) == &PyDict_Type)
        free_list[numfree++] = mp;
    else
        Py_TYPE(mp)->tp_free((PyObject *)mp);
    Py_TRASHCAN_SAFE_END(mp)
}

和PyListObject对象的缓冲池机制一样，缓冲池中只保留了PyDictObject对象。如果维护的维护的是从系统堆中申请的内存空间，那么python将释放这份内存空间，归还给系统堆。如果不是，那么仅仅只需要调整维护的对象的引用计数即可

其实在创建一个PyDictObject对象时，如果缓冲池中有可用的对象，也会直接从缓冲池中取，而不需要再重新创建。

static PyObject *
new_dict(PyDictKeysObject *keys, PyObject **values)
{
    PyDictObject *mp;
    assert(keys != NULL);
    if (numfree) {
        mp = free_list[--numfree];
        assert (mp != NULL);
        assert (Py_TYPE(mp) == &PyDict_Type);
        _Py_NewReference((PyObject *)mp);
    }
    ...
    ...
    ...