转自:http://www.linuxidc.com/Linux/2012-04/57831.htm

系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。

现在要更改map对应的输入的<key,value>值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。

那么我们需要重写InputFormat和RecordReader,因为RecordReader是在InputFormat中调用的,当然重写RecordReader才是重点!

下面看代码InputFormat的重写:

  1. public class chDicInputFormat extends FileInputFormat<Text,Text>
  2. implements JobConfigurable{
  3. private CompressionCodecFactory compressionCodecs = null;
  4. public void configure(JobConf conf) {
  5. compressionCodecs = new CompressionCodecFactory(conf);
  6. }
  7. /**
  8. * @brief isSplitable 不对文件进行切分,必须对文件整体进行处理
  9. *
  10. * @param fs
  11. * @param file
  12. *
  13. * @return false
  14. */
  15. protected boolean isSplitable(FileSystem fs, Path file) {
  16. //  CompressionCodec codec = compressionCodecs.getCode(file);
  17. return false;//以文件为单位,每个单位作为一个split,即使单个文件的大小超过了64M,也就是Hadoop一个块得大小,也不进行分片
  18. }
  19. public RecordReader<Text,Text> getRecordReader(InputSplit genericSplit,
  20. JobConf job, Reporter reporter) throws IOException{
  21. reporter.setStatus(genericSplit.toString());
  22. return new chDicRecordReader(job,(FileSplit)genericSplit);
  23. }
  24. }

下面来看RecordReader的重写:

  1. public class chDicRecordReader implements RecordReader<Text,Text> {
  2. private static final Log LOG = LogFactory.getLog(chDicRecordReader.class.getName());
  3. private CompressionCodecFactory compressionCodecs = null;
  4. private long start;
  5. private long pos;
  6. private long end;
  7. private byte[] buffer;
  8. private String keyName;
  9. private FSDataInputStream fileIn;
  10. public chDicRecordReader(Configuration job,FileSplit split) throws IOException{
  11. start = split.getStart(); //从中可以看出每个文件是作为一个split的
  12. end = split.getLength() + start;
  13. final Path path = split.getPath();
  14. keyName = path.toString();
  15. LOG.info("filename in hdfs is : " + keyName);
  16. final FileSystem fs = path.getFileSystem(job);
  17. fileIn = fs.open(path);
  18. fileIn.seek(start);
  19. buffer = new byte[(int)(end - start)];
  20. this.pos = start;
  21. }
  22. public Text createKey() {
  23. return new Text();
  24. }
  25. public Text createValue() {
  26. return new Text();
  27. }
  28. public long getPos() throws IOException{
  29. return pos;
  30. }
  31. public float getProgress() {
  32. if (start == end) {
  33. .0f;
  34. else {
  35. .0f, (pos - start) / (float)(end - start));
  36. }
  37. }
  38. public boolean next(Text key, Text value) throws IOException{
  39. while(pos < end) {
  40. key.set(keyName);
  41. value.clear();
  42. fileIn.readFully(pos,buffer);
  43. value.set(buffer);
  44. //      LOG.info("---内容: " + value.toString());
  45. pos += buffer.length;
  46. LOG.info("end is : " + end  + " pos is : " + pos);
  47. return true;
  48. }
  49. return false;
  50. }
  51. public void close() throws IOException{
  52. if(fileIn != null) {
  53. fileIn.close();
  54. }
  55. }
  56. }

通过上面的代码,然后再在main函数中设置InputFormat对应的类,就可以使用这种新的读入格式了。

【转载】Hadoop自定义RecordReader的更多相关文章

  1. [Hadoop] - 自定义Mapreduce InputFormat&OutputFormat

    在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...

  2. Hadoop自定义类型处理手机上网日志

    job提交源码分析 在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...

  3. Hadoop自定义分组Group

    matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...

  4. [转载]hadoop SecondNamenode详解

    SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA.真正的了解了SecondNamenode以后,才发现 ...

  5. [转载] Hadoop和Hive单机环境搭建

    转载自http://blog.csdn.net/yfkiss/article/details/7715476和http://blog.csdn.net/yfkiss/article/details/7 ...

  6. [转载] Hadoop MapReduce

    转载自http://blog.csdn.net/yfkiss/article/details/6387613和http://blog.csdn.net/yfkiss/article/details/6 ...

  7. Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志

    测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析 首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...

  8. Hadoop自定义JobTracker和NameNode管理页面

    为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面. 首先, 在org.apache.hadoop ...

  9. hadoop自定义数据类型

    统计某手机数据库的每个手机号的上行数据包数量和下行数据包数量 数据库类型如下: 数据库内容如下: 下面自定义类型SimLines,类似于平时编写的model import java.io.DataIn ...

随机推荐

  1. thinkphp3.2短信群发项目实例

    项目功能是企业给客户群发短信,我就写这么多,也不知道你能不能运行成功,如果有问题可以在QQ上问我:605114821 项目文件SMS_V2.zip下载地址,百度云:http://yun.baidu.c ...

  2. 02:QT的第一个程序

    新建项目,有这么几个文件: main.cpp                      //一个main函数,作为应用程序的入口函数 mainwindow.cpp mainwindow.h untit ...

  3. 报错Exception in thread "main" java.lang.NoClassDefFoundError: javax/xml/bind/...

    首先我的jdk是11.05的 这个是由于: 这个是 由于缺少了javax.xml.bind,在jdk10.0.1中没有包含这个包,所以我自己去网上下载了jdk 8,然后把jdk10.0.1换成jdk ...

  4. cf 水管问题

    原题链接:https://vjudge.net/contest/331120#problem/E 原文英语: You are given a system of pipes. It consists ...

  5. 关于print()、sys.stdout、sys.stderr的一些理解

    print() 方法的语法: print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False) 其中file = sys.stdout的 ...

  6. 10个Python 初学者必知编码小技巧

          技巧 #1   字符串翻转 >>> a = "codementor" >>> print "Reverse is" ...

  7. JAVAWEB应用模块(一)登录模块

    java后台代码(MD5加密+token验证): import com.smart.ssai.admin.domain.User; import com.smart.ssai.admin.servic ...

  8. logistic回归损失函数(非常重要,深入理解)

    2.2 logistic回归损失函数(非常重要,深入理解) 上一节当中,为了能够训练logistic回归模型的参数w和b,需要定义一个成本函数 使用logistic回归训练的成本函数 为了让模型通过学 ...

  9. style.display = "inline或inline";和style.display = "";的区别

    function a(){ if($('#b').attr('checked')){ $('.c').css("display",""); //"di ...

  10. IIS支持json、geojson文件

    最近在搞asp.net + openlayers. 其中openlayer有个数据源支持 .geojson 数据,但是怎么测试都不能成功.同样的数据拿到php下就能成功显示. 搓. 在网上漫无目的的搜 ...