hadoop集群的机器数业界(国内)最大的在5000左右,是什么限制了集群的规模呢?有好几个原因。

1. namenode的内存大小限制

2. 机器故障概率随着机器数目增大而增大,通常一份数据存储在hdfs集群时保存3份拷贝,因此需要估算故障概率。

两个问题:

问题1. hdfs的数据存在10000块硬盘,每份数据都保存3份拷贝,请问在12小时以内3块或3块以上硬盘损坏的概率是多少?

解答:

每块2T硬盘在12小时内损坏的概率为p=(年损坏率 为3%-8%)/(365*24/12) = 1e-4。(按8%计算).

假设每块硬盘是独立的,不受其它硬盘正常或损坏的影响, 那么n块硬盘里在12个小时内有k块损坏的概率为 Q(k) = C(n, k)* p^k *(1-p)^(n-k) 
n=10000块硬盘,在12小时内同时有3块或3块以上硬盘损坏的概率为 1 - Q(0) - Q(1) - Q(2) = 9%

问题 2. 假设10000块硬盘,一个硬盘放30000个块。每个块必须重复三次,那么随机三个硬盘有同样块的概率是多少?

解答:

这个题目比较难,简化一下:
假设每个盘可以放无穷多个块。
假设总共存了m块数据(每块数据保存在随机从n=10000中取3块硬盘上),则随机取三块硬盘,某块数据分布在这三块硬盘上的概率为:p = 1/C(n, 3)。
则随机取三块硬盘,上面保存了k块相同的数据的概率为: Q(k) = C(m, k)* p^k *(1-p)^(m-k) 
则随机取3块硬盘,这三块硬盘上面保存了相同块的概率为P(n,m)= 1 - Q(0).
计算两个实例:
n=10000, m=1时,P(n,m)= 6.0e-12
n=10000, m=n*1000时,P(n,m)= 0.01%

n=100, m=n*1000时,P(n,m)= 46.12%
这里n是问题的关键,n越小,P(n,m)越大。
这是实际问题的一个估算。

hadoop集群的故障概率估算的更多相关文章

  1. hadoop集群安装故障解决

    nodemanager进程解决:http://blog.csdn.net/baiyangfu_love/article/details/13504849 编译安装:http://blog.csdn.n ...

  2. hadoop集群故障排除

    故障一:某个datanode节点无法启动 我是以用户名centos安装和搭建了一个测试用的hadoop集群环境,也配置好了有关的权限,所有者.所属组都配成centos:centos [故障现象] 名称 ...

  3. Hadoop集群(第8期)_HDFS初探之旅

    1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...

  4. 非常不错 Hadoop 的HDFS (Hadoop集群(第8期)_HDFS初探之旅)

    1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...

  5. Hadoop集群_HDFS初探之旅

    1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...

  6. 大数据系列(2)——Hadoop集群坏境CentOS安装

    前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...

  7. Hadoop集群搭建

    配置IP,修改主机名,关闭防火墙,配置SSH免密码登录

  8. 实战CentOS系统部署Hadoop集群服务

    导读 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高 ...

  9. 大数据——Hadoop集群坏境CentOS安装

    前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...

随机推荐

  1. 2014-08-01 ASP.NET中对SQLite数据库的操作——ADO.NET

    今天是在吾索实习的第18天.我主要学习了如何在ASP.NET中对SQLite数据库的操作,其基本操作如下: 添加引用System.Data.SQLite.dll(PS:在网页里面任意找到适合的.NET ...

  2. cf500B New Year Permutation

    B. New Year Permutation time limit per test 2 seconds memory limit per test 256 megabytes input stan ...

  3. HDU4452 Running Rabbits

    涉及知识点: 1. direction数组. 2. 一一映射(哈希). Running Rabbits Time Limit: 2000/1000 MS (Java/Others)    Memory ...

  4. Solr4.4.0部署到tomcat上

    主要步骤如下: 1.下载solr-4.4.0.tgz 2.解压缩solr-4.4.0.tgz,命令tar -xzvf solr-4.4.0.tgz 3.压缩后进入到solr-4.4.0目录,将 exa ...

  5. adjtimex使用

    adjtimex使用 今天遇到一个ntp的同步问题.服务器上配置好了ntpd,在启动前也手动进行过同步,但是过段时间ntpq查询发现服务器即便能选出同步服务器,但是系统的时间偏差越来越大. 服务器上实 ...

  6. 替换IMG

    <?php $str = '<img src="http://img01.feiniu.com/images/show/detail/image/20141031/9b3bbc3 ...

  7. windows使用命令行杀进程

    在windows有时使用任务管理器杀进程,一直杀不掉: 这个时候,可以使用命令行: 先使用tasklist 命令查看当前系统中的进程列表,然后针对你要杀的进程使用taskkill命令 如要杀nginx ...

  8. 【架构师之路】依赖注入原理---IoC框架

    1 IoC理论的背景    我们都知道,在采用面向对象方法设计的软件系统中,它的底层实现都是由N个对象组成的,所有的对象通过彼此的合作,最终实现系统的业务逻辑.  图1:软件系统中耦合的对象 如果我们 ...

  9. 【C#基础】实现URL Unicode编码,编码、解码相关整理

    1.Unicode编码 引用系统 System.Web using System.Web; string postdata = "SAMLRequest=" + HttpUtili ...

  10. 让你的java开发变得如此 Smart

    http://my.oschina.net/huangyong/blog/196408