进入到第六章了,我们要开始聊聊分布式系统之中的核心问题:数据分区.分布式系统通常是通过大规模的数据节点来处理单机没有办法处理的海量数据集,因此,可以将一个大型数据集可以分布在多个磁盘上,查询负载可以分布在多个处理器上.在这一章中,我们首先讨论划分大型数据集的不同方法,并观察数据索引如何与分区交互,然后将探索数据分区重新平衡的策略.最后,来看看路由技术怎么将查询索引到正确的分区.内容看起来还不少,我们开始吧. 1. 分区与副本 分区与副本是很容易混淆的概念,我们这里离清一下两者. 数据分区的每个副…