Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题

单位用的是Linux系统的字符编码是gb2312，所以生成的文件都是按照默认编码生成的。给我的文件也都是gb2312的，在hadoop中运行mapreduce出现乱码，在网上查资料说是因为hadoop的文件系统默认用的是utf-8，那么只有两条路可以选，要么改文件的编码格式，要么改在Mapreduce程序中想办法转一下。很显然改文件的编码格式是不现实的，因为客户那边用C++生成的文件千千万万，而且原来的老程序还在不断的生成，要他们改程序涉及到的工作量太大了。所以这能我这边想办法了。

因为Mapreduce涉及到读和写两个操作。首先在Map中读的时候需要使用gb2312的方式去读取文件，然后Reduce中写文件的时候需要以gb2312的方式去写。想想其实如果在Reduce中写的时候不用gb2312的方式去写，那么就用默认的UTF-8去写，原理上只要把这个文件下载下来，拷贝到一个能够识别gb2312文件格式的系统上去，应该看到的不是乱码，这个没有试过。由于操作系统字符编码是gb2312，所以为了生成的文件不是乱码，reduce中写的是时候还是用gb2312的方式去写吧。下面说说具体操作步骤：

1、在Map中以gb2312的方式去读取文件，只需要两行代码转换一下就可以。

String line = value.toString();

line = new String(line .getBytes(), 0, line .length, "gb2312");

2、在reduce中写的时候用gb2312去写，这个时候需要重写一个类，代替原来的TextOutputFormat类。新的类代码如下：

 public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> {

  protected static class LineRecordWriter<K, V>

    implements RecordWriter<K, V> {

    //写成gbk即可

    private static final String gbk = “gb2312”;

    private static final byte[] newline;

    static {

      try {

        newline = “\n”.getBytes(gbk);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);

      }

    }

…

    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {

      this.out = out;

      try {

        this.keyValueSeparator = keyValueSeparator.getBytes(gbk);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);

      }

    }

…

    private void writeObject(Object o) throws IOException {

      if (o instanceof Text) {

             //  Text to = (Text) o;

             //  out.write(to.getBytes(), 0, to.getLength());

            //  } else {

        out.write(o.toString().getBytes(gbk));

      }

    }

 …

}

    然后在mapreduce代码中加入conf1.setOutputFormat(GbkOutputFormat.class)

    即可以gbk格式输出中文。

本文参考：http://blog.csdn.net/zklth/article/details/11829563

Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题的更多相关文章

关于读取txt文件中文乱码问题
在处理文件的过程中,读取txt文件出现中文乱码.这种情况是由于编码字符不一致导致. public static string ReadFile(string path, string fileName ...
解決BufferedReader读取UTF-8文件中文乱码
解決BufferedReader读取UTF-8文件中文乱码 File rst01 = new File(context.getRealPath("/")+" ...
Python读取 csv文件中文乱码处理
需求:按行解析读取csv文件存入关系型数据库——主要是中文字体解析:遇到的问题:直接解析出来的数据为list形式,而且编码格式为unicode;解决问题:前提了解: 中文编码的规则 —— GB2312 ...
【 D3.js 进阶系列 — 1.2 】读取 CSV 文件时乱码的解决方法
在 D3 中使用 d3.csv 读取 CSV 文件时,有时会出现乱码问题. 怎么解决呢? 1. 乱码问题使用 d3.csv 读取 xxx.csv 文件时.假设 xxx.csv 文件使用的是 UTF- ...
ASP中Utf-8与Gb2312编码转换乱码问题的解决方法页面编码声明
ASP程序在同一个站点中,如果有UTF-8编码的程序,又有GB2312编码的程序时,在浏览UTF-8编码的页面后,再浏览当前网站GB2312的页面,GB2312编码的页面就会出现乱码出现这样的问题是 ...
Java使用ResourceBundle类读取properties文件中文乱码的解决方案
Java使用java.util.ResourceBundle类的方式来读取properties文件时不支持中文,要想支持中文必须将文件设置为ISO-8859-1编码格式,这对于开发工具默认为UTF-8 ...
解決BufferedReader读取UTF-8文件中文乱码(转)
读取txt文件乱码 BufferedReader read = new BufferedReader(new FileReader(new File(filename))); 解决办法: InputS ...
在python中逐行读取大文件
在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()或readlines()就可以了,但是如果是将一个10G大小的日志文件读取,即文件大于内存的 ...
【转】MapReduce读取lzo文件
1.读lzo文件需要添加以下代码,并导入lzo相关的jar包 job.setInputFormatClass(LzoTextInputFormat.class); 2.写lzo文件 lzo格式默认是 ...

随机推荐

Node.js入门（含NVM、NPM、NVM的安装)-(转载)
Node.js的介绍引擎引擎的特性: JS的内核即引擎.因为引擎有以下特性: (1)转化的作用: 汽油柴油等等->动能模板+数据--->页面 js引擎:js 代码--->机器码 ...
安卓开发（2）—— Kotlin语言概述
安卓开发(2)-- Kotlin语言概述 Android的官方文档都优先采用Kotlin语言了,学它来进行Android开发已经是一种大势所趋了. 这里只讲解部分的语法. 如何运行Kotlin代码这 ...
解决Maven资源过滤问题
向pom文件添加如下配置 <build> <resources> <resource> <directory>src/main/java</dir ...
.Net Core Api发布时报502.5 [The Application process failed to Start]问题的解决原因
碰到这样的错误,在网上找了很久很久.我自己在部署的时候已经把Core 部署需要的环境包在服务器安装好了.还会报这个错,然后在网上找的安装了一个系统补丁包!安装之后还是不行.最后我把服务器重启了一 ...
Windows家庭版打开或关闭Hyper-V
打开hyper-v 创建open_hyper-v.bat文件 pushd "%~dp0" dir /b %SystemRoot%\servicing\Packages\*Hyper ...
Go slice 扩容机制分析
前言我们都知道 Go 语言中的 slice 具有动态扩容的机制(不知道的同学请先补课 Go 切片) 但是其底层机制是什么呢?本着知其然,知其所以然的探索精神去研究一番.还不是为了应试手动狗头 go ...
用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割
用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割 Accelerating Medical Image Segmentation with NVIDIA Tensor ...
英特尔® 至强® 平台集成 AI 加速构建数据中心智慧网络
英特尔至强平台集成 AI 加速构建数据中心智慧网络 SNA 通过 AI 方法来实时感知网络状态,基于网络数据分析来实现自动化部署和风险预测,从而让企业网络能更智能.更高效地为最终用户业务提供支撑. ...
构造无限级树的框架套路，附上python/golang/php/js实现
目录前言需求数据结果框架递归框架迭代框架递归框架实现 python golang php js 迭代框架实现 python golang php js 前言框架思维非常重要,和语言无 ...
springcloud-config配置异常Cannot clone or checkout repository 和 Authentication is required but no CredentialsProvider has been registered解决过程
Cannot clone or checkout repository, 出现这个异常,通过检查是因为自己本地没有配置 ssh,所以配置了, https://blog.csdn.net/zy_2818 ...

Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题

Hadoop0.20.2中MapReduce读取gb2312文件出现乱码问题的更多相关文章

随机推荐

热门专题