带着问题出发

　　分布式要解决什么问题呢？解决持久化数据太大，单个节点的硬盘无法存储的问题；解决运算量太大，单个节点的内存、CPU无法处理的问题。解决这些问题，有两种思路：scale up，scale out。前者就是提升单个节点的能力，更大的磁盘，更快的CPU，定制的软硬件，然而这意味着更高的价格，而且再怎么scaleup 也是有上限的。后者就是把存储、计算任务分担到普通的机器上，通过动态增加节点来应对数据量的增长，但缺点是多个节点的管理、任务的调度比较麻烦，这也是分布式系统研究和解决的问题。只有当数据量达到单机无法存储、处理的情况下才考虑分布式，不然都是自找麻烦。

　　状态的维护比计算要难很多，所谓状态就是需要持久化的数据。因此主要考虑分布式存储，况且即使是分布式计算，为了节省带宽需要尽量保证data locality，也是需要分布式存储。

　　现在有一堆数据，可能是结构化或者半结构化，需要将数据分片（segment、fragment、shard），形成一个个的数据子集，存储到一组物理节点上，物理节点之间通过网络通信。那么需要考虑两个问题：

　　第一：数据如何划分;

　　第二：数据的可靠性、可用性问题

数据分片

　　数据分片是指将数据子集尽可能均衡的划分到各个物理节点上。那么会有哪些挑战呢？

　　（1）如果某个物理节点宕机，如何将该物理节点负责的数据尽快的转移到其他物理节点；

　　（2）如果新增了物理节点，怎么从其他节点迁移数据到新节点；

　　（3）对于可修改的数据（即不是只能追加的数据），比如数据库数据，如果某节点数据量变大，怎么将部分数据迁移到其他负载较小的节点，及达到动态均衡的效果。

　　（4）元数据的管理问题：当数据分布在各个节点，那么当用户使用的时候需要知道具体的数据在哪一个节点上。因此，系统需要维护数据的元数据：即每一个数据所在的位置、状态等信息。当用户需要具体的数据时，先查询元数据，然后再去具体的节点上查询。当数据在节点之间迁移的时候，也需要更新元数据。元数据的管理节点这里称之为meta server。元数据的管理也带来了新的挑战：

　　　　（4.1）如何抽取数据的特征（特征是分片的依据，也是用户查询数据时的key），或者支持用户自定义数据特征；

　　　　（4.2）如何保证meta server的高性能和高可用，是单点还是复制集

　　（5）分片的粒度，即数据子集的大小，也是数据迁移的基本单位。粒度过粗，不利于数据均衡；粒度过细，管理、迁移成本又会比较大。

数据冗余

　　前面提到，分布式系统中的节点都是普通的节点，因此有一定的概率会出现物理故障，比如断电、网络不可用，这些故障导致数据的暂时不可用；另外一些故障更严重，会导致数据的丢失，比如磁盘损坏。即使单个节点的故障是小概率，当集群中的节点数目很多是，故障就成为了一个大概率事件。因此，保证数据的高可用和可靠性是分布式系统必须解决的问题。

　　为了避免单点故障，可行的办法就是数据冗余（复制集），即将同一份数据放在不同的物理节点，甚至是不同的数据中心。如果数据是一次写，多次读那很好办，随便从哪个副本读取都行。但对于很多分布式存储系统，比如数据库，数据是持续变化的，有读有写。那么复制集会带来什么样的挑战呢，需要如何权衡呢，假设有三个副本：

　　（1）三个副本的地位，大家都是平等的还是有主（primary、master）有次（secondary、slave），如果是平等的，那么每个节点都可以接收写操作；如果不平等，可以一个节点负责所有的写操作，所有节点都提供读操作，

　　（2）在平等的情况下，怎么保证写入操作不冲突，保证各个节点的数据是一致的，怎么保证能读取到最新的数据

　　（3）不平等的情况下

　　　　（3.1）写节点怎么将变更的数据同步到其他节点，同步还是异步；

　　　　（3.2）非写节点能否提供读数据，如果能够允许，会不会读取到过时的数据。

　　　　（3.3）主节点是怎么产生的，当主节点宕机的时候，怎么选择出新的主节点。是有统一的复制集管理中心（记录谁主谁次，各自的状态），还是复制集自己选举出一个主节点？

　　（4）不管复制集内部的节点是平等的，还是有集中式节点的，只要有多个数据副本，就需要考虑数据的一致性可用性问题。按照CAP理论，只能同时满足一致性可用性分区容错性之间的二者，不同的分布式系统需要权衡。

其他

　　分布式系统有自己的术语或者概念。在当前的这个时间点，我对其中的一些有了解，或者使用过；另外一些只是听说过，不甚了解；当然，还有更多的是不知道的，是需要在后续的学习中去发现、去掌握的。

　　分片副本一致性哈希幂等 CAP paxos raft NWR lease 两阶段提交协议三阶段提交协议拜占庭问题

　　目前收集到的学习资料如下：

　　刘杰的《分布式系统原理介绍》

　　Distributed systems for fun and profit

　　CMU课程：http://www.cs.cmu.edu/~dga/15-440/S14/syllabus.html

　　MIT课程：http://nil.csail.mit.edu/6.824/2016/schedule.html

　　前面两个是基础整体介绍，最后一个是MIT的课程，网上评价很高，也有很多人在学习。

总结：

回到顶部

　　对于一门新技术，不要上来就开干，思考新技术解决了什么问题、已有的技术能否替代、适用场景与缺陷。对于自己（程序员），想想为什么要学、是深度还是广度知识、该技术在自己的技能树中的位置。

　　对于学习，需要长期目标与短期目标相结合。长期目标很重要，但需要分解成一个个小目标，否则很容易在停顿、重拾之间打转，也很容易分心到其他杂事，也就坚持不下去了。

　　本文地址：http://www.cnblogs.com/xybaby/p/6930977.html

解决持久化数据太大，单个节点的硬盘无法存储的问题；解决运算量太大，单个节点的内存、CPU无法处理的问题的更多相关文章

解决Vuex刷新页面数据丢失问题 ---- vuex-persistedstate持久化数据
何为Vuex?用处是什么?为什么刷新丢失? Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式.它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
从零开始入门 K8s | 应用存储和持久化数据卷：存储快照与拓扑调度
作者 | 至天阿里巴巴高级研发工程师一.基本知识存储快照产生背景在使用存储时,为了提高数据操作的容错性,我们通常有需要对线上数据进行 snapshot ,以及能快速 restore 的能力.另 ...
如何解决分布式系统数据事务一致性问题（HBase加Solr）
如何解决分布式系统数据事务一致性问题 (HBase加Solr) 摘要:对于所有的分布式系统,我想事务一致性问题是极其非常重要的问题,因为它直接影响到系统的可用性.本文以下所述所要解决的问题是:对于入H ...
ActiveMq持久化数据
A:持久化为文件这个你装ActiveMQ时默认就是这种,只要你设置消息为持久化就可以了.涉及到的配置和代码有 <persistenceAdapter> <kahaDB direct ...
011.Kubernetes使用共享存储持久化数据
本次实验是以前面的实验为基础,使用的是模拟使用kubernetes集群部署一个企业版的wordpress为实例进行研究学习,主要的过程如下: 1.mysql deployment部署, wordpre ...
Oracle数据导入导出imp/exp sp2-0734:未知的命令开头'imp...解决方法
Oracle数据导入导出imp/exp sp2-0734:未知的命令开头'imp...解决方法 sp2-0734:未知的命令开头'imp 忽略了剩余行默认分类 www.2cto.com 应该 ...
Redis客户端连接以及持久化数据（三）
0.Redis目录结构 1)Redis介绍及部署在CentOS7上(一) 2)Redis指令与数据结构(二) 3)Redis客户端连接以及持久化数据(三) 4)Redis高可用之主从复制实践(四) 5 ...
集群版本升级——rolling upgrade在ES 单节点从 restart 到加入集群，大概要 100s 左右的时间。也就是说，这 100s 内，该节点上的所有分片都是 unassigned 状态
集群版本升级 Elasticsearch 作为一个新兴项目,版本更新非常快.而且每次版本更新都或多或少带有一些重要的性能优化.稳定性提升等特性.可以说,ES 集群的版本升级,是目前 ES 运维必然要做 ...

随机推荐

C语言有哪些鲜为人知的特性？
译注:本文摘编自 Quora 的一个热门问答贴. 请在linux系统下测试本文中出现的代码 Andrew Weimholt 的回复: switch语句中的case 关键词可以放在if-else或者是循 ...
不容忽视的js面试题
1.全局变量和局部变量(变量提升和连等赋值问题) (function() { var a = b = 5; })(); console.log(a); console.log(b); 上面代码运行结果 ...
asp.net core中写入自定义中间件
首先要明确什么是中间件?微软官方解释:https://docs.microsoft.com/zh-cn/aspnet/core/fundamentals/middleware/?tabs=aspnet ...
MOOS学习笔记2——HelloWorld回调
MOOS学习笔记2--HelloWorld回调例程 #include "MOOS/libMOOS/Comms/MOOSAsyncCommClient.h" bool OnConn ...
面向对象（this的问题二）
<!DOCTYPE HTML><html><head><meta http-equiv="Content-Type" content=&q ...
讲解Oracle面试过程中常见的二十个问题
1.冷备份和热备份的不同点以及各自的优点解答:热备份针对归档模式的数据库,在数据库仍旧处于工作状态时进行备份.而冷备份指在数据库关闭后,进行备份,适用于所有模式的数据库.热备份的优点在于当备 ...
spring中一些aware接口
Spring中提供一些Aware相关接口,像是BeanFactoryAware. ApplicationContextAware.ResourceLoaderAware.ServletContextA ...
EF Core使用SQL调用返回其他类型的查询
假设你想要 SQL 本身编写,而不使用 LINQ. 需要运行 SQL 查询中返回实体对象之外的内容. 在 EF Core 中,执行该操作的另一种方法是编写 ADO.NET 代码,并从 EF 获取数据库 ...
nginx flv点播服务器搭建
首先选用Nginx+Nginx-rtmp-module作为点播服务器,安装文章:https://www.atlantic.NET/community/howto/install-rtmp-ubuntu ...
servlet什么时候被实例化？【转】
如果没有设置loadOnStartup,则第一次请求的时候实例化分三种情况:loadOnStartup < 0 即负数的情况下,web容器启动的时候不做实例化处理,servlet首次被调用时做 ...

解决持久化数据太大，单个节点的硬盘无法存储的问题；解决运算量太大，单个节点的内存、CPU无法处理的问题

带着问题出发

数据分片

数据冗余

其他

总结：

解决持久化数据太大，单个节点的硬盘无法存储的问题；解决运算量太大，单个节点的内存、CPU无法处理的问题的更多相关文章

随机推荐

热门专题