spark 中文编码处理
日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。
研究了下Java的编码问题。
网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下
import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.Text
import org.apache.hadoop.mapred.TextInputFormat rdd = ctx.hadoopFile(file_list, classOf[TextInputFormat],
classOf[LongWritable], classOf[Text]).map(
pair => new String(pair._2.getBytes, , pair._2.getLength, "GBK"))
这种想法的来源是基于
public static Text transformTextToUTF8(Text text, String encoding) {
String value = null;
try {
value = new String(text.getBytes(), , text.getLength(), encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return new Text(value);
}
但这种方法还有一个问题,
大家都知道gbk是2~3个字节编码的。如果日志中按照直接截断,导致按照gbk读取文件的时候,将后面的分隔符\t一并读取了 ,导致按照\t split的时候,字段的个数不对(或者说顺序错位了)。
这个时候,需要找到一种单字节的解析方案,即 ISO-8859-1编码。代码如下
rdd = ctx.hadoopFile(file_list, classOf[TextInputFormat],
classOf[LongWritable], classOf[Text]).map(
pair => new String(pair._2.getBytes, , pair._2.getLength, "ISO-8859-1"))
但这又带来了一个问题,即输出的结果(按照UTF-8存储)是乱码,不可用。
如果我们换一种思路来考虑这个问题,Java或scala中如何将一个gbk文件转换为UTF8?网上有很多的现成的代码,具体到我们的场景,以行为单位处理的话,示例代码如下
public class Encoding {
private static String kISOEncoding = "ISO-8859-1";
private static String kGBKEncoding = "GBK";
private static String kUTF8Encoding = "UTF-8";
public static void main(String[] args) throws UnsupportedEncodingException {
try {
File out_file = new File(args[1]);
Writer out = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream(out_file), kUTF8Encoding));
List<String> lines = Files.readAllLines(Paths.get(args[0]), Charset.forName(kGBKEncoding));
for (String line : lines) {
out.append(line).append("\n");
}
out.flush();
out.close();
} catch (IOException e) {
System.out.println(e);
}
}
}
如上的代码给了我们一个启示,即在写入文件的时候,系统自动进行了编码的转换,我们没必要对行进行单独的直接转换处理。
通过查询资料,Java中字符编码是内部编码,即字节流按照编码转化为String。
所谓结合以上两点认识,我们模拟在spark上以ISO-8859-1
打开文件和以UTF-8写入文件的过程,发现只需要将其强制转换为GBK的string即可,最终得到的文件以UTF-8打开不是乱码,具体代码如下。
public class Encoding {
private static String kISOEncoding = "ISO-8859-1";
private static String kGBKEncoding = "GBK";
private static String kUTF8Encoding = "UTF-8";
public static void main(String[] args) throws UnsupportedEncodingException {
try {
File out_file = new File(args[1]);
Writer out = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream(out_file), kUTF8Encoding));
List<String> lines = Files.readAllLines(Paths.get(args[0]), Charset.forName(kISOEncoding));
for (String line : lines) {
String gbk_str = new String(line.getBytes(kISOEncoding), kGBKEncoding);
out.append(gbk_str).append("\n");
}
out.flush();
out.close();
} catch (IOException e) {
System.out.println(e);
}
}
}
完美的解决了。。。花费了一个工作日解决才解决的问题,对Java还是不够熟练啊。
总结出来,希望对大家有用。
总结
1. 要举一反三
2. 学会google,最近我就指望着它活着了。
spark 中文编码处理的更多相关文章
- 基于spark的plsa实现
PLSA.py # coding:utf8 from pyspark import SparkContext from pyspark import RDD import numpy as np fr ...
- Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
- Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
- spark处理大规模语料库统计词汇
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...
- Hive on Spark安装配置详解(都是坑啊)
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...
- Spark踩坑记——数据库(Hbase+Mysql)
[TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
- Spark踩坑记——初试
[TOC] Spark简介 整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...
- Spark读写Hbase的二种方式对比
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputForm ...
- (资源整理)带你入门Spark
一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...
随机推荐
- React typescript issue
多个输入框发生变化时,setState: this.setState({[e.target.name]: e.target.value} as componentState)
- 绕过SQL限制的方法
突然想我们是否可以用什么方法绕过SQL注入的限制呢?到网上考察了一下,提到的方法大多都是针对AND与“’”号和“=”号过滤的突破,虽然有点进步的地方,但还是有一些关键字没有绕过,由于我不常入侵网站所以 ...
- c++ 霍夫变换检测直线
通常这是一幅边缘图像,比如来自 Canny算子.cv:: Houghlines函数的输出是cV::Vec2f向量,每个元素都是一对代表检测到的直线的浮点数(p,0).在下例中我们首先应用 Canny算 ...
- mac 电脑学习笔记 -
新买了个mac mini,第一次用mac,有点linux基础,借此机会记录一下自己的学习过程. 1.个人设置文件 .profile export LS_OPTIONS='--color=auto' # ...
- python web开发配置
安装python(最好是2.*版本) 安装easyinstall 参考Windows 下 Python easy_install 的安装 完成之后注意环境变量的配置 在系统环境变量的PATH中添加ea ...
- 感觉有变良好的第一次电面——yahoo北京测试实习生
一个月之前投的岗位.都已经忘了.昨天突然接到电话说今天下午3点电面. 立马又开始忐忑起来,整理了下项目啊,推荐系统相关知识啥的,跑到欧巴桑寝室去电面电面. 3点很准时的电话来了,是个女面试官. 一上来 ...
- IOS socket编程--Asyncsocket
iPhone的标准推荐是CFNetwork 库编程,其封装好的开源库是 cocoa AsyncSocket库,用它来简化CFNetwork的调用,它提供了异步操作 主要特性有: 队列的非阻塞的读和写, ...
- gradle 命令行
1. 帮助 ./gradlew -h 2. gradle 可执行tasks gradle tasks or ./gradlew tasks 3. gradle help 任务 帮助了解每个task 的 ...
- 找到最大或最小的N个元素
问题: 想在某个集合中找到最大或最小的N个元素 解决方案: heapq 模块中有两个函数 nlargest() 和 nsmallest() 它们正是我们需要的.例如: import heapq n ...
- IE兼容模式与非兼容模式下jq的写法
1. $("#LabelRepeatType").removeAttr("disabled"); $("#LabelF ...