小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。不论什么一个文件,文件夹和block,在HDFS中都会被表示为一个object存储在namenode的内存中, 每一个object占用150 bytes的内存空间。

所以,假设有10million个文件, 每一个文件相应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息。

假设规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限。

控制小文件的方法有:

1、应用程序自己控制

2、archive

3、Sequence File / Map File

4、CombineFileInputFormat***

5、合并小文件,如HBase部分的compact

1、应用程序自己控制

  1. final Path path = new Path("/combinedfile");
  2. final FSDataOutputStream create = fs.create(path);
  3. final File dir = new File("C:\\Windows\\System32\\drivers\\etc");
  4. for(File fileName : dir.listFiles())
  5. {
  6. System.out.println(fileName.getAbsolutePath());
  7. final FileInputStream fileInputStream = new
  8. FileInputStream(fileName.getAbsolutePath());
  9. final List<String> readLines = IOUtils.readLines(fileInputStream);
  10. for (String line : readLines)
  11. {
  12. create.write(line.getBytes());
  13. }
  14. fileInputStream.close();
  15. }
  16. create.close();

2、archive 命令行操作

详细參考例如以下:

http://blog.csdn.net/scgaliguodong123_/article/details/46341587

3、Sequence File/Map File

Sequence File

通常对于”the small files problem”的回应会是:使用SequenceFile。

这样的方法是说,使用filename作为key,而且file contents作为value。实践中这样的方式非常管用。

假设有10000个100KB的文件,能够写一个程序来将这些小文件写入到一个单独的 SequenceFile中去,然后就能够在一个streaming fashion(directly or using mapreduce)中来使用这个sequenceFile

不仅如此,SequenceFiles也是splittable的。所以mapreduce 能够break them into chunks,而且分别的被独立的处理。

和HAR不同的是,这样的方式还支持压缩。 block的压缩在很多情况下都是最好的选择,由于它将多个 records压缩到一起,而不是一个record一个压缩。

在存储结构上, SequenceFile主要由一个Header后跟多条Record组成。

Header主要包括了Key classname, Value classname。存储压缩算法。用户自己定义元数据等信息,此外,还包括了一些同步标识,用于高速定位到记录的边界。

每条Record以键值对的方式进行存储。用来表示它的字符数组可依次解析成:记录的长度、 Key的长度、 Key值和Value值。而且Value值的结构取决于该记录是否被压缩。

数据压缩有利于节省磁盘空间和加快网络传输, SeqeunceFile支持两种格式的数据压缩。各自是: record compression和block compression。

record compression是对每条记录的value进行压缩

block compression是将一连串的record组织到一起。统一压缩成一个block。

block信息主要存储了:块所包括的记录数、每条记录Key长度的集合、每条记录Key值的集合、每条记录Value长度的集合和每条记录Value值的集合

注:每一个block的大小是可通过io.seqfile.compress.blocksize属性来指定的。

  1. Configuration conf=new Configuration();
  2. FileSystem fs=FileSystem.get(conf);
  3. Path seqFile=new Path("seqFile.seq");
  4. //Reader内部类用于文件的读取操作
  5. SequenceFile.Reader reader=new SequenceFile.Reader(fs,seqFile,conf);
  6. //Writer内部类用于文件的写操作,假设Key和Value都为Text类型
  7. SequenceFile.Writer writer=new SequenceFile.Writer(fs,conf,seqFile,Text.class,Text.class);
  8. //通过writer向文档中写入记录
  9. writer.append(new Text("key"),new Text("value"));
  10. IOUtils.closeStream(writer);//关闭write流
  11. //通过reader从文档中读取记录
  12. Text key=new Text();
  13. Text value=new Text();
  14. while(reader.next(key,value))
  15. {
  16. System.out.println(key);
  17. System.out.println(value);
  18. }
  19. IOUtils.closeStream(reader);//关闭read流

详细可參考:

http://blog.csdn.net/scgaliguodong123_/article/details/46391061

MapFile

MapFile是排序后的SequenceFile,通过观察其文件夹结构能够看到

MapFile由两部分组成。各自是data和index。

index作为文件的数据索引。主要记录了每一个Record的key值,以及

该Record在文件里的偏移位置。

在MapFile被訪问的时候,索引文件会被载入到内存,通过索引映射关系可迅速定位到指定Record所在文件位置。因此,相对SequenceFile而言, MapFile的检索效率是高效的,缺点是会消耗一部分内存来存储index数据。

注意的是。 MapFile并不会把全部Record都记录到index中去,默认情况下每隔128条记录存储一个索引映射。当然,记录间隔可人为改动,通过MapFIle.Writer的setIndexInterval()方法,或改动io.map.index.interval属性;

另外,与SequenceFile不同的是。 MapFile的KeyClass一定要实现

WritableComparable接口 ,即Key值是可比較的。

  1. Configuration conf=new Configuration();
  2. FileSystem fs=FileSystem.get(conf);
  3. Path mapFile=new Path("mapFile.map");
  4. //Writer内部类用于文件的写操作,假设Key和Value都为Text类型
  5. MapFile.Writer writer=new MapFile.Writer(conf,fs,mapFile.toString(),Text.class,Text.class);
  6. //通过writer向文档中写入记录
  7. writer.append(new Text("key"),new Text("value"));
  8. IOUtils.closeStream(writer);//关闭write流
  9. //Reader内部类用于文件的读取操作
  10. MapFile.Reader reader=new MapFile.Reader(fs,mapFile.toString(),conf);
  11. //通过reader从文档中读取记录
  12. Text key=new Text();
  13. Text value=new Text();
  14. while(reader.next(key,value))
  15. {
  16. System.out.println(key);
  17. System.out.println(value);
  18. }
  19. IOUtils.closeStream(reader);//关闭read流

5、CombineFileInputFormat

相对于大量的小文件来说。hadoop更合适处理少量的大文件。

CombineFileInputFormat能够缓解这个问题,它是针对小文件而设计的。

**注:**CombineFileInputFormat是一个抽象类。须要编写一个继承类。

使用CombineFileInputFormat作为Map任务的输入规格描写叙述,首先须要实现一个自己定义的RecordReader。

CombineFileInputFormat的大致原理

它会将输入多个数据文件(小文件)的元数据全部包装到CombineFileSplit类里面。也就是说,由于小文件的情况下,在HDFS中都是单Block的文件,即一个文件一个Block,一个CombineFileSplit包括了一组文件Block。包括每一个文件的起始偏移(offset),长度(length)。Block位置(localtions)等元数据。

假设想要处理一个 CombineFileSplit。非常easy想到。对其包括的每一个InputSplit(实际上这里面没有这个,你须要读取一个小文件块的时候,须要构造一 个FileInputSplit对象)。

在运行MapReduce任务的时候,须要读取文件的文本行(简单一点是文本行。也可能是其它格式数据)。

那么对于CombineFileSplit来说,你须要处理其包括的小文件Block,就要相应设置一个RecordReader,才干正确读取文件数据内容。

通常情况下,我们有一批小文件,格式一般是同样的,仅仅须要在CombineFileSplit实现一个RecordReader的时候,

内置还有一个用来读取小文件Block的RecordReader,这样就能保证读取CombineFileSplit内部聚积的小文件。

我们基于Hadoop内置的CombineFileInputFormat来实现处理海量小文件,须要做的工作,例如以下所看到的:

1、实现一个RecordReader来读取CombineFileSplit包装的文件Block

2、继承自CombineFileInputFormat实现一个使用我们自己定义的RecordReader的输入规格说明类。

3、处理数据的Mapper实现类

4、配置用来处理海量小文件的MapReduce Job

  1. package SmallFile;
  2. import java.io.IOException;
  3. import org.apache.hadoop.fs.Path;
  4. import org.apache.hadoop.io.BytesWritable;
  5. import org.apache.hadoop.io.LongWritable;
  6. import org.apache.hadoop.mapreduce.InputSplit;
  7. import org.apache.hadoop.mapreduce.RecordReader;
  8. import org.apache.hadoop.mapreduce.TaskAttemptContext;
  9. import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;
  10. import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;
  11. import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;
  12. import org.apache.hadoop.mapreduce.lib.input.FileSplit;
  13. import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;
  14. public class CombineSmallfileInputFormat extends
  15. CombineFileInputFormat<LongWritable,BytesWritable>
  16. {
  17. @Override
  18. public RecordReader<LongWritable, BytesWritable> createRecordReader(
  19. InputSplit split, TaskAttemptContext context) throws IOException
  20. {
  21. CombineFileSplit combineFileSplit = (CombineFileSplit)(split);
  22. CombineFileRecordReader<LongWritable,BytesWritable> recordReader =
  23. new CombineFileRecordReader<LongWritable,BytesWritable>
  24. (combineFileSplit, context,CombineSmallfileRecordReader.class);
  25. try
  26. {
  27. recordReader.initialize(combineFileSplit, context);
  28. }
  29. catch (InterruptedException e)
  30. {
  31. e.printStackTrace();
  32. }
  33. return recordReader;
  34. }
  35. }
  36. class CombineSmallfileRecordReader extends RecordReader<LongWritable,BytesWritable>
  37. {
  38. private CombineFileSplit combineFileSplit;
  39. private LineRecordReader lineRecordReader = new LineRecordReader();
  40. private Path[] paths;
  41. private int totalLength;
  42. private int currentIndex;
  43. private float currentProgress = 0;
  44. private LongWritable currentKey;
  45. private BytesWritable currentValue;
  46. public CombineSmallfileRecordReader(CombineFileSplit combineFileSplit,TaskAttemptContext context,Integer index)
  47. {
  48. super();
  49. this.combineFileSplit = combineFileSplit;
  50. this.currentIndex = index;
  51. }
  52. @Override
  53. public void initialize(InputSplit split, TaskAttemptContext context)
  54. throws IOException, InterruptedException
  55. {
  56. FileSplit fileSplit = new FileSplit(combineFileSplit.getPath(currentIndex),
  57. combineFileSplit.getOffset(currentIndex),combineFileSplit.getLength(currentIndex),
  58. combineFileSplit.getLocations());
  59. lineRecordReader.initialize(fileSplit, context);
  60. this.paths = combineFileSplit.getPaths(); //分区所在的全部地址
  61. context.getConfiguration().set("map.input.file.name",
  62. combineFileSplit.getPath(currentIndex).getName()); //设置输入文件名称
  63. }
  64. @Override
  65. public boolean nextKeyValue() throws IOException, InterruptedException
  66. {
  67. if(currentIndex>=0 && currentIndex<totalLength)
  68. {
  69. return lineRecordReader.nextKeyValue();
  70. }
  71. return false;
  72. }
  73. @Override
  74. public LongWritable getCurrentKey() throws IOException, InterruptedException
  75. {
  76. currentKey = lineRecordReader.getCurrentKey();
  77. return currentKey;
  78. }
  79. @Override
  80. public BytesWritable getCurrentValue() throws IOException, InterruptedException
  81. {
  82. byte[]value = lineRecordReader.getCurrentValue().getBytes();
  83. currentValue.set(value, 0, value.length);
  84. return currentValue;
  85. }
  86. @Override
  87. public float getProgress() throws IOException, InterruptedException
  88. {
  89. if(currentIndex>=0 && currentIndex<totalLength)
  90. {
  91. currentProgress = currentIndex/totalLength;
  92. return currentProgress;
  93. }
  94. return currentProgress;
  95. }
  96. @Override
  97. public void close() throws IOException
  98. {
  99. lineRecordReader.close();
  100. }
  101. }

Hadoop对小文件的解决方式的更多相关文章

  1. 如何利用Hadoop存储小文件

    **************************************************************************************************** ...

  2. VS2012 编译程序时报无法载入PDB文件错误解决方式

    VS2012 编译程序时报无法载入PDB文件错误解决方式 "ConsoleApplication1.exe"(Win32): 已载入"C:\Users\hp\Docume ...

  3. Hadoop合并小文件的几种方法

    1.Hadoop HAR 将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map-Reduce进行操作,打包后的文件由索引和存储两大部分组成: 缺点: 一旦创建就不能修改,也不支 ...

  4. hadoop上传文件失败解决办法

    hadoop上传文件到web端hdfs显示hadoop could only be replicated to 0 nodes instead of 1解决办法 错误状态:在hadoop-2.7.2目 ...

  5. FileOutputStream字节输出流和FileInputStream输入流(切记:out是输出到本地中,in是输入到程序中)这里介绍大文件和小文件的读取方式

    //FileOutputStream public class FileOutputStreamDemo { /**字节流:适用于任何文件,以字节为单位,进行读写操作  *字节流操作步骤:  *1.创 ...

  6. Hadoop上小文件如何存储?

    Block是文件块,HDFS中是以Block为单位进行文件的管理的,一个文件可能有多个块,每个块默认是3个副本,这些块分别存储在不同机器上.块与文件之前的映射关系会定时上报Namenode.HDFS中 ...

  7. Linux 下没有 my.cnf 文件的解决方式,完全是我自己整的,好多教程都是瞎扯的 (zhuan)

    http://blog.csdn.net/jspping/article/details/40400691?utm_source=tuicool&utm_medium=referral *** ...

  8. 记linux下rm误删bin文件的解决方式

    平常有个坏习惯,删文件为了快点,喜欢用rm xx*,删除一些关键词文件.今天为了删/bin下几个含有mix关键词的文件,使用命令rm mix*.手贱,mix和*之间多了个空格...灾难发生了!bin下 ...

  9. iOS - 工程文件冲突 - 解决方式

随机推荐

  1. LeetCode: Reverse Words in a String && Rotate Array

    Title: Given an input string, reverse the string word by word. For example,Given s = "the sky i ...

  2. jQuery点击div其他地方隐藏div

    $(document).bind("click",function(e){ var target = $(e.target); ){ $("#regionlist&quo ...

  3. Java与WCF交互(一):Java客户端调用WCF服务

    最近开始了解WCF,写了个最简单的Helloworld,想通过java客户端实现通信.没想到以我的基础,居然花了整整两天(当然是工作以外的时间,呵呵),整个过程大费周折,特写下此文,以供有需要的朋友参 ...

  4. C# 多线程网络爬虫

    原文 C#制作多线程处理强化版网络爬虫 上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等. 说说思路:首相 ...

  5. Android 的实现TextView中文字链接的4种方法

    Android 的实现TextView中文字链接的方式有很多种. 总结起来大概有4种: 1.当文字中出现URL.E-mail.电话号码等的时候,可以将TextView的android:autoLink ...

  6. 简易CSS3 Tab菜单 Tab切换滑块动画

    今天要分享一款简易的CSS3 Tab菜单,这款Tab菜单在切换的时候内容块出现飞入飞出的动画效果,尽管看起来非常简单,但是你完全可以在上面定制自己喜欢的Tab菜单.前面也分享过一些Tab菜单,像CSS ...

  7. [算法] 选择排序 Selection sort

    选择排序(Selection sort)是一种简单直观的排序算法.它的工作原理如下.首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然 ...

  8. js变量申明提前及缺省参数

    现在最先的行为准则:js变量申明必须带var:然后开始随笔: 函数中的变量申明在编译的时候都会提到函数开头. 例如: function foo(){ console.log('some code he ...

  9. windows下安装和配置Weka

    Weka是一款免费的,非商业化的,基于java环境下的开源的机器学习以及数据挖掘软件.Weka里含有各种数据挖掘工具:数据预处理,分类与回归,聚类,关联规则和可视化工具. 一.安装weka 我们首先需 ...

  10. Eclipse与tomcat服务器建立关联

    首先,点击 打开preference,打开如下界面 点击ADD,进入如下界面,选择tomcat服务器的版本->点击next 进入如下界面,Name:服务器名字,directory:服务器目录 补 ...