日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。

研究了下Java的编码问题。

网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下

import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.Text
import org.apache.hadoop.mapred.TextInputFormat rdd = ctx.hadoopFile(file_list, classOf[TextInputFormat],
classOf[LongWritable], classOf[Text]).map(
pair => new String(pair._2.getBytes, , pair._2.getLength, "GBK"))

这种想法的来源是基于

public static Text transformTextToUTF8(Text text, String encoding) {
String value = null;
try {
value = new String(text.getBytes(), , text.getLength(), encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return new Text(value);
}

但这种方法还有一个问题,

大家都知道gbk是2~3个字节编码的。如果日志中按照直接截断,导致按照gbk读取文件的时候,将后面的分隔符\t一并读取了 ,导致按照\t split的时候,字段的个数不对(或者说顺序错位了)。

这个时候,需要找到一种单字节的解析方案,即 ISO-8859-1编码。代码如下

rdd = ctx.hadoopFile(file_list, classOf[TextInputFormat],
classOf[LongWritable], classOf[Text]).map(
pair => new String(pair._2.getBytes, , pair._2.getLength, "ISO-8859-1"))

但这又带来了一个问题,即输出的结果(按照UTF-8存储)是乱码,不可用。

如果我们换一种思路来考虑这个问题,Java或scala中如何将一个gbk文件转换为UTF8?网上有很多的现成的代码,具体到我们的场景,以行为单位处理的话,示例代码如下

public class Encoding {
private static String kISOEncoding = "ISO-8859-1";
private static String kGBKEncoding = "GBK";
private static String kUTF8Encoding = "UTF-8"; public static void main(String[] args) throws UnsupportedEncodingException {
try {
File out_file = new File(args[1]);
Writer out = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream(out_file), kUTF8Encoding));
List<String> lines = Files.readAllLines(Paths.get(args[0]), Charset.forName(kGBKEncoding));
for (String line : lines) {
out.append(line).append("\n");
}
out.flush();
out.close();
} catch (IOException e) {
System.out.println(e);
}
}
}

如上的代码给了我们一个启示,即在写入文件的时候,系统自动进行了编码的转换,我们没必要对进行单独的直接转换处理。

通过查询资料,Java中字符编码是内部编码,即字节流按照编码转化为String。

所谓结合以上两点认识,我们模拟在spark上以ISO-8859-1

打开文件和以UTF-8写入文件的过程,发现只需要将其强制转换为GBK的string即可,最终得到的文件以UTF-8打开不是乱码,具体代码如下。

public class Encoding {
private static String kISOEncoding = "ISO-8859-1";
private static String kGBKEncoding = "GBK";
private static String kUTF8Encoding = "UTF-8"; public static void main(String[] args) throws UnsupportedEncodingException {
try {
File out_file = new File(args[1]);
Writer out = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream(out_file), kUTF8Encoding));
List<String> lines = Files.readAllLines(Paths.get(args[0]), Charset.forName(kISOEncoding));
for (String line : lines) {
String gbk_str = new String(line.getBytes(kISOEncoding), kGBKEncoding);
out.append(gbk_str).append("\n");
}
out.flush();
out.close();
} catch (IOException e) {
System.out.println(e);
}
}
}

完美的解决了。。。花费了一个工作日解决才解决的问题,对Java还是不够熟练啊。

总结出来,希望对大家有用。

总结

1. 要举一反三

2. 学会google,最近我就指望着它活着了。

spark 中文编码处理的更多相关文章

  1. 基于spark的plsa实现

    PLSA.py # coding:utf8 from pyspark import SparkContext from pyspark import RDD import numpy as np fr ...

  2. Spark踩坑记——Spark Streaming+Kafka

    [TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

  3. Spark RDD 核心总结

    摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...

  4. spark处理大规模语料库统计词汇

    最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...

  5. Hive on Spark安装配置详解(都是坑啊)

    个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...

  6. Spark踩坑记——数据库(Hbase+Mysql)

    [TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...

  7. Spark踩坑记——初试

    [TOC] Spark简介 整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...

  8. Spark读写Hbase的二种方式对比

    作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputForm ...

  9. (资源整理)带你入门Spark

    一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...

随机推荐

  1. react-hooks: custom hooks

    memberEntitiy: export interface MemberEntity { id: number; name: string; code: string; } const useMe ...

  2. c# unicode 编码 中文转换 已测试(转)

    中文传参时因为编码不同经常凌乱风中,故传前编成unicode码来过度是一个不错的解决方法 /// <summary> /// 中文转unicode        /// </summ ...

  3. elasticsearch聚合案例--分组、求最大值再求最大值的均值

    一.需求 A.B.C代表3个用户,第二列代表各自的得分,求A.B.C的最好成绩以及A.B.C最好成绩的均值 A 10 A 11 A 13 B 11 B 11 B 12 C 10 C 10 C 11 C ...

  4. Windows下修改hosts并且让他立即生效

    1.打开hosts所在的目录 Win+R->C:\windows\System32\drivers\etc 2.编辑hosts文件 使用Notepad++或者记事本以管理员身份打开hosts,修 ...

  5. 如何快速上手.net下单元测试工具NUnit?

    NUnit基本使用 准备知识: 读此博文需要了解单元测试基本概念及NUnit的的安装. 传送门:单元测试之道(使用NUnit) 1.常见的错误 当学习一个新东西时,先学习错误,是最快的方式. 1.1 ...

  6. 【ACM非算法部分】读入优化

    今天做了ACdream的比赛才知道原来还有读入优化这一说.Orz 读入一个整数的时候这么写: int a; scanf("%d",&a); 和 int a; char c; ...

  7. 【解题报告】[动态规划]RQNOJ - PID82 / 又上锁妖塔

    原题地址:http://www.rqnoj.cn/problem/82 解题思路: 简单的动态规划 状态表示:DP[i][0]表示当前在第i层,且当前跳跃状态不可用,此时消耗的最短时间.   DP[i ...

  8. java中的修辞

    1.final修辞 final修辞变量分为两种:基本类型(byte,short,int,long,float,double,char,boolean)也是值类型,则一旦初始化,值不能改变:应用类型(S ...

  9. C# chart控件运用

    为了弄一个实时数据显示的窗口,最近一周时间都耗在这个控件上了,属性有点多(下面列的是一些常用的) 后来干脆写代码把他们封装起来,各个chart直接来调用它,省得到属性里面去设置. chart内的一些元 ...

  10. 圆方树总结 [uoj30]Tourists

    圆方树总结 所谓圆方树就是把一张图变成一棵树. 怎么变啊qaq 这里盗一张图 简单来说就是给每一个点双新建一个点,然后连向这个点双中的每一个点.特殊的,把两个点互相连通的也视作一个点双. 我们把原来就 ...