Hadoop 文件的数量怎么比block的数量多？

Total files:    23
Total symlinks:        0
Total blocks (validated):    22 (avg. block size 117723 B)
Minimally replicated blocks:    22 (100.0 %)
Over-replicated blocks:    0 (0.0 %)
Under-replicated blocks:    0 (0.0 %)
Mis-replicated blocks:        0 (0.0 %)
Default replication factor:    2
Average block replication:    2.0
Corrupt blocks:        0
Missing replicas:        0 (0.0 %)
Number of data-nodes:        2
Number of racks:        1
FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds

有一次，同事问我说，文件数怎么比block数目还要多，这正常吗？
当时查看的情况是文件数一千多万，block的总数不到一千万。
我当时也没想出原因。现在知道了，并不是我们想的，block的数量应该是文件的数量* 复本数
这里fsck 给出的数据是这样理解的，block数量不是总的复本数，文件按block大小划分的数量。
而且我们在执行mapreduce的时候，会生成sucess之类的标识文件，这样的文件是空的，不算block
所以文件的数量会比block数量多，这是正常的。

Hadoop 文件的数量怎么比block的数量多？的更多相关文章

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）
spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别 ...
Hadoop EC 踩坑：data block 缺失导致的 HDFS 传输速率下降
环境:hadoop-3.0.2 + 11 机集群 + RS-6-3-1024K 的EC策略状况:某天,往 HDFS 上日常 put 业务数据时,发现传输速率严重下降分析: 检查集群发现,在之前的传 ...
Hadoop架构: 关于Recovery (Lease Recovery , Block Recovery, PipeLine Recovery)
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览在HDFS中,有三种Recovery 1.Lease Recovery 2.Block Recover ...
hadoop 文件参数配置
准备环境(省略) 上传实验所需的压缩包配置网络信息修改主机名配置域名解析关闭防火墙与SELinux(在所有节点上执行)代码如下: systemctl disable --now firewal ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压
2 索引读取阶段当希望通过一个DocId得到Doc的全部内容,那么就需要对fdx/fdt文件进行读操作了.具体的代码在CompressingStoredFieldsReader类里面.与 ...
java面试题：如果一串字符如"aaaabbc中国1512"要分别统计英文字符的数量，中文字符的数量，和数字字符的数量，假设字符中没有中文字符、英文字符、数字字符之外的其他特殊字符。
package com.swift; public class TotalNumber_String { public static void main(String[] args) { /* * 如 ...
Hadoop MR Job 关于如何控制Map Task 数量
整理下,基本分两个方式: 一.对于大量大文件(大于block块设置的大小) 增大minSize,即增大mapred.min.split.size的值,原因:splitsize=max(minisize ...

随机推荐

Eclipse颜色主题插件：Eclipse Color Theme
一个很赞的eclipse插件,可以简单方便地实现eclipse下的代码配色.另外插件作者还专门为此插件做了一个eclipse配色网站,配色多达728个,开发者们也可以在此网站分享自己的配色方案. 插件 ...
ADO.net中常用的对象介绍
ADO.NET的对象主要包括:DataSet,DataTable,DataColumn,DataRow,和DataRelation. DataSet:这个对象是一个集合对象,它可以包含任意数量的数据表 ...
ActiveReports 报表应用教程 (2)---清单类报表
在大多报表系统中都有清单类报表的身影,比如:客户清单.商品信息清单.设备清单.物品采购清单.记账凭证.货品发货清单.员工清单等等.清单类报表看视乎比较简单,但是,由清单类报表演变而来的报表类型却十分丰 ...
Studio for Winforms FlexGrid:导出到 PDF 文件
本篇文章主要介绍如何导出 FlexGrid 到 PDF 格式文件.本文源于论坛用户,有多个用户提出如何把 FlexGrid 导出到 PDF 文件的需求.在这里共享给大家. 当前,ComponentOn ...
老外还是喜欢Ubuntu的
有图为证? 开效果应该是Ubuntu的界面了,当然,不知是不是backtrack. 这里面的Hacker用的电脑都不是水果.是没有给钱么.
spring的懒加载
在spring的IOC容器中,可以通过设置<beans default-lazy-init="XXX"></beans>来设置是否为懒加载模式,懒加载的意思 ...
POJ 1836 Alignment 最长递增子序列(LIS)的变形
大致题意:给出一队士兵的身高,一开始不是按身高排序的.要求最少的人出列,使原序列的士兵的身高先递增后递减. 求递增和递减不难想到递增子序列,要求最少的人出列,也就是原队列的人要最多. 1 2 3 4 ...
学习Scala：初学者应该了解的知识
Scala开发参照清单这里列出在开发一个Scala工程中需要参照的资料. 官网网站 http://www.scala-lang.org/ 文档网站 http://docs.scala-lang.or ...
环境搭建二 secureCRT配置
上一篇里面讲到了虚拟机安装,以及secureCRT的远程连接.此篇文章介绍secureCRT的配置. 颜色设置参考 http://jingyan.baidu.com/article/a681b0 ...
Linux chmod命令详解
Linux chmod命令详解 chmod----改变一个或多个文件的存取模式(mode) chmod [options] mode files 只能文件属主或特权用户才能使用该功能来改变文件 ...

Hadoop 文件的数量怎么比block的数量多？

Hadoop 文件的数量怎么比block的数量多？的更多相关文章

随机推荐

热门专题