使用JAVA API读取HDFS的文件数据出现乱码的解决方案

使用JAVA api读取HDFS文件乱码踩坑

想写一个读取HFDS上的部分文件数据做预览的接口，根据网上的博客实现后，发现有时读取信息会出现乱码，例如读取一个csv时，字符串之间被逗号分割

英文字符串aaa，能正常显示
中文字符串“你好”，能正常显示
中英混合字符串如“aaa你好”，出现乱码

查阅了众多博客，解决方案大概都是：使用xxx字符集解码。抱着不信的想法，我依次尝试，果然没用。

解决思路

因为HDFS支持6种字符集编码，每个本地文件编码方式又是极可能不一样的，我们上传本地文件的时候其实就是把文件编码成字节流上传到文件系统存储。那么在GET文件数据时，面对不同文件、不同字符集编码的字节流，肯定不是一种固定字符集解码就能正确解码的吧。

那么解决方案其实有两种

固定HDFS的编解码字符集。比如我选用UTF-8，那么在上传文件时统一编码，即把不同文件的字节流都转化为UTF-8编码再进行存储。这样的话在获取文件数据的时候，采用UTF-8字符集解码就没什么问题了。但这样做的话仍然会在转码部分存在诸多问题，且不好实现。
动态解码。根据文件的编码字符集选用对应的字符集对解码，这样的话并不会对文件的原生字符流进行改动，基本不会乱码。

我选用动态解码的思路后，其难点在于如何判断使用哪种字符集解码。

好在看到了一篇博客

https://blog.csdn.net/smallnetvisitor/article/details/84682867

Google提供了检测字节流编码方式的包。那么方案就很明了了，先读一些文件字节流，用工具检测编码方式，再对应进行解码即可。

具体代码

pom

<dependency>

	<groupId>net.sourceforge.jchardet</groupId>

	<artifactId>jchardet</artifactId>

	<version>1.0</version>

</dependency>

从HDFS读取部分文件做预览的逻辑

    // 获取文件的部分数据做预览

    public List<String> getFileDataWithLimitLines(String filePath, Integer limit) {

        FSDataInputStream fileStream = openFile(filePath);

        return readFileWithLimit(fileStream, limit);

    }

    // 获取文件的数据流

    private FSDataInputStream openFile(String filePath) {

        FSDataInputStream fileStream = null;

        try {

            fileStream = fs.open(new Path(getHdfsPath(filePath)));

        } catch (IOException e) {

            logger.error("fail to open file:{}", filePath, e);

        }

        return fileStream;

    }

    // 读取最多limit行文件数据

    private List<String> readFileWithLimit(FSDataInputStream fileStream, Integer limit) {

        byte[] bytes = readByteStream(fileStream);

        String data = decodeByteStream(bytes);

        if (data == null) {

            return null;

        }

        List<String> rows = Arrays.asList(data.split("\\r\\n"));

        return rows.stream().filter(StringUtils::isNotEmpty)

                .limit(limit)

                .collect(Collectors.toList());

    }

    // 从文件数据流中读取字节流

    private byte[] readByteStream(FSDataInputStream fileStream) {

        byte[] bytes = new byte[1024*30];

        int len;

        ByteArrayOutputStream stream = new ByteArrayOutputStream();

        try {

            while ((len = fileStream.read(bytes)) != -1) {

                stream.write(bytes, 0, len);

            }

        } catch (IOException e) {

            logger.error("read file bytes stream failed.", e);

            return null;

        }

        return stream.toByteArray();

    }

    // 解码字节流

    private String decodeByteStream(byte[] bytes) {

        if (bytes == null) {

            return null;

        }

        String encoding = guessEncoding(bytes);

        String data = null;

        try {

            data = new String(bytes, encoding);

        } catch (Exception e) {

            logger.error("decode byte stream failed.", e);

        }

        return data;

    }

    // 根据Google的工具判别编码

    private String guessEncoding(byte[] bytes) {

        UniversalDetector detector = new UniversalDetector(null);

        detector.handleData(bytes, 0, bytes.length);

        detector.dataEnd();

        String encoding = detector.getDetectedCharset();

        detector.reset();

        if (StringUtils.isEmpty(encoding)) {

            encoding = "UTF-8";

        }

        return encoding;

    }

使用JAVA API读取HDFS的文件数据出现乱码的解决方案的更多相关文章

Java API 读取HDFS的单文件
HDFS上的单文件: -bash-3.2$ hadoop fs -ls /user/pms/ouyangyewei/data/input/combineorder/repeat_rec_categor ...
java Api 读取HDFS文件内容
package dao; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import java ...
Spark：java api读取hdfs目录下多个文件
需求: 由于一个大文件,在spark中加载性能比较差.于是把一个大文件拆分为多个小文件后上传到hdfs,然而在spark2.2下如何加载某个目录下多个文件呢? public class SparkJo ...
用java api读取HDFS文件
import java.io.IOException; import java.io.InputStream; import java.security.PrivilegedExceptionActi ...
JAVA API 实现hdfs文件操作
java api 实现hdfs 文件操作会出现错误提示: Permission denied: user=hp, access=WRITE, inode="/":hdfs:supe ...
分享非常有用的Java程序(关键代码)(八)---Java InputStream读取网络响应Response数据的方法!(重要)
原文:分享非常有用的Java程序(关键代码)(八)---Java InputStream读取网络响应Response数据的方法!(重要) Java InputStream读取数据问题 ======== ...
使用Java API操作HDFS文件系统
使用Junit封装HFDS import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org ...
使用Java Api 操作HDFS
如题我就是一个标题党就是使用JavaApi操作HDFS,使用的是MAVEN,操作的环境是Linux 首先要配置好Maven环境,我使用的是已经有的仓库,如果你下载的jar包速度慢,可以改变Ma ...
C#选择多个文件并读取多个文件数据
原文:C#选择多个文件并读取多个文件数据版权声明:本文为博主原创文章,转载请附上链接地址. https://blog.csdn.net/ld15102891672/article/details/8 ...

随机推荐

Mysql架构与内部模块-第二章
接上文,上文简述到了Mysql中的查询缓存和解析器,今日我们继续. 先来看一段SQL:SELECT * FROM `jianghuadong`; 先假设我们数据库中并没有一张名为jianghuadon ...
Celery---一个懂得异步任务,延时任务,周期任务的芹菜
Celery是什么? celey是芹菜 celery是基于Python实现的模块,用于执行异步延时周期任务的其结构组成是由 1.用户任务 app 2.管道任务broker用于存储任务官方推荐red ...
k8s node上查看节点
node执行 mkdir -p /root/.kube master执行 scp admin.conf node1:/root/.kube/config
shell变量替换 SHELL字符串处理技巧（${}、##、%%）
在SHELL编程中,经常要处理一些字符串变量.比如,计算长度啊.截取子串啊.字符替换啊等等,常常要用到awk.expr.sed.tr等命令.下面给大家介绍个简单的字符串处理方法,用不着嵌套复杂的子 ...
第八章 nginx基础介绍
一.nginx概述 nginx是一个开源且高性能.可靠的http web服务.代理服务. 开源:直接获取源代码高性能:支持海量并发可靠:服务稳定二.nginx特点 1.高性能高并发性能高,支持 ...
Flink + 强化学习搭建实时推荐系统
如今的推荐系统,对于实时性的要求越来越高,实时推荐的流程大致可以概括为这样: 推荐系统对于用户的请求产生推荐,用户对推荐结果作出反馈 (购买/点击/离开等等),推荐系统再根据用户反馈作出新的推荐.这个 ...
JavaScript实现异步的4中方法
一:背景简介 Javascript语言的执行环境是"单线程"(single thread). 所谓"单线程",就是指一次只能完成一件任务.如果有多个任务,就必须 ...
fish_redux使用详解---看完就会用！
说句心里话,这篇文章,来来回回修改了很多次,如果认真看完这篇文章,还不会写fish_redux,请在评论里喷我. 前言来学学难搞的fish_redux框架吧,这个框架,官方的文档真是一言难尽,比fl ...
C#8.0之后接口已经不再单纯了，我懵逼了！
一:背景 1. 讲故事大家在经过面向对象洗礼的时候,都了解过接口,而且知道它是一种自上而下的设计思路,举个例子,我们电脑上都有 USB 2.0 接口,蓝牙耳机实现了它可以进行充电,移动硬盘实现了它可 ...
maven 的安装与环境变量配置
在http://maven.apache.org下载maven安装包一.Windows 1.解压压缩包: jar -xvf "D:/apache-maven-3.5.0-bin.zip&q ...