纯文本-FileInputStream的编码与解码方式

前言：以下分析只针对纯文本

1.FileInputStream默认的编码方式就是文件的编码方式

即：源文件是什么编码方式，则利用FileInputStream默认读取的字节数组，就是什么编码方式。

例：纯文本采用“GBK”编码，文本内容如下（注意：文本是纯汉字）：

你好世界我是潘小白

利用“GBK”字符集解码如下：

package cn.edu.uestc.IO;

import java.io.*;

public class TestFileInputStream03 {

    public static void main(String[] args){

        //流

        File file = new File("abc3.txt");

        //源

        InputStream is = null;

        try {

            is = new FileInputStream(file);

            //操作

            byte[] bytes = new byte[4];//这里数组容量必须采用2的倍数，具体原因后面后谈

            int len = -1;

            while ((len = is.read(bytes))!=-1){

                String str = new String(bytes,0,len,"GBK");//利用GBK字符集，对FileInputStream读取的字节数组进行解码

                System.out.print(str);

            }

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }finally{

            //释放资源

            try {

                if (null!=is){

                    is.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

}

/*output:

你好世界我是潘小白

*/

分析：通过代码可知，我采用FileInputStream对格式为“GBK”的纯汉字文本读取，得到的字节数组，可以用"GBK"字符集对其完美解码；反推可知，FileInputStream默认读取的字节数组，其编码格式和原文件编码格式相同。接下来，用"UTF-8"对其进行解码试一试。。。

利用“UTF-8”字符集解码如下：

package cn.edu.uestc.IO;

import java.io.*;

public class TestFileInputStream03 {

    public static void main(String[] args){

        //流

        File file = new File("abc3.txt");

        //源

        InputStream is = null;

        try {

            is = new FileInputStream(file);

            //操作

            byte[] bytes = new byte[4];//这里数组容量采用3的倍数，区别于上面GBK解码时2的倍数，具体原因后面谈

            int len = -1;

            while ((len = is.read(bytes))!=-1){

                String str = new String(bytes,0,len,"UTF-8");//利用UTF-8字符集对字节数组进行解码

                System.out.print(str);

            }

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }finally{

            //释放资源

            try {

                if (null!=is){

                    is.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

}

/*output:

�������������С��//输出无法解码

*/

分析：利用UTF-8无法解码，再次说明，FileInputStream默认读取的字节数组的编码格式，就是原文件的编码格式。

同理读者可以将纯文本（纯汉字文本）设置成UTF-8的编码格式，再分别采用“GBK”和“UTF-8”方式解码试一试，特别注意数组容量的选择，即：“纯汉字文本，GBK解码时，字节数组容量是2的倍数”、““纯汉字文本，UTF-8解码时，字节数组容量是3的倍数”,原因下面分析。

————————简单的分割————————

2.采用“GBK”对纯汉字文本解码时，字节数组容量是2的倍数；“UTF-8”对纯汉字文本解码时，字节数组容量是3的倍数。

原因是：“GBK”编码时，一个汉字是2个字节，“UTF-8”对常规汉字编码时，一个汉字是3个字节（UTF-8方式下，生僻汉字也可能会占4个字节，这种方式此处不谈）。

所以，你要对字节数组解码时，你首先必须成组的取字节（“GBK”模式下2的倍数一组，“UTF-8”模式下3的倍数一组），否则会将一个汉字的字节拆开，这样肯定会乱码，其对应着我上一篇文章提到的“字节数不全或者丢失情况，产生的乱码”。

此处，我们用代码做一下简单示范，原文本采用“GBK”编码，字节数组容量采用3，不是2的倍数:

package cn.edu.uestc.IO;

import java.io.*;

public class TestFileInputStream03 {

    public static void main(String[] args){

        //流

        File file = new File("abc3.txt");

        //源

        InputStream is = null;

        try {

            is = new FileInputStream(file);

            //操作

            byte[] bytes = new byte[3];//不是2的倍数

            int len = -1;

            while ((len = is.read(bytes))!=-1){

                String str = new String(bytes,0,len,"GBK");//却用GBKJ解码

                System.out.print(str);

            }

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }finally{

            //释放资源

            try {

                if (null!=is){

                    is.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

}

/*output:

你�檬�界�沂�潘�“�//也就第一个字取全了，解码出来，但是后面字节数乱了，也就无法解码了

*/

结果看到，基本全部乱码。

同理，读者可以采用UTF-8的文本，而设置字节数组容量不是3的倍数，从而进行UTF-8解码，试试看；你会发现，即使编码-解码的字符集同步，但是字节数组中字节个数不对，同样乱码。

——————简单的分割线——————

上面问题2中，“编码-解码的字符集同步，字节数组中字节个数不匹配出现乱码”可以进一步延伸；

我们看到上面，都是纯汉字文本，没有任何英文字符(包括英文字母和英文标点)，如果文本是，中英文混合怎么办，还能否采用上面的方式，对FileInputStream读取的字节进行解码呢？？

答案是：不能，见下面分析。

3.中英文混合纯文本，用FileInputStream读取时，得到的字节数组无法采用上面 String str = new String(bytes,0,length,"CharacterSet")方式解码，应该采用字符转换流InputStreamReader。

（提示：这里不再考虑标点符号的事了，你可以将英文标点符号看出一个英文字母，中文下的标点看成一个普通汉字分析，因为同一种编码格式下，中文字母和中文标点占用字节数一样，英文字母和英文标点占用字节数一致）

原因：无论是"GBK"还是"UTF-8"，英文占用1个字节，所以，当插入引文时，一定会改变字节个数混乱，无法保证“在GBK格式下，每个汉字的两个字节同时被字节数组读取”，也无法保证“在UTF-8格式下，每个汉字的三个字节同时被字节数组读取”，那么将导致后期解码时，出现乱码。

示例：文本格式是“GBK”,文本中插入了一个英文字母

你好p世界我是潘小白

代码如下：

package cn.edu.uestc.IO;

import java.io.*;

public class TestFileInputStream03 {

    public static void main(String[] args){

        //流

        File file = new File("abc3.txt");

        //源

        InputStream is = null;

        try {

            is = new FileInputStream(file);

            //操作

            byte[] bytes = new byte[2];//字节数组容量采用2

            int len = -1;

            while ((len = is.read(bytes))!=-1){

                String str = new String(bytes,0,len,"GBK");//GBK解码，实现编码-解码格式匹配

                System.out.print(str);

            }

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }finally{

            //释放资源

            try {

                if (null!=is){

                    is.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

}

/*output：

你好p�澜缥沂桥诵“�

*/

结果分析：输出结果从字母p以后，出现乱码；这里选取得字节数组的容量是2，所以前两个汉字被一一读取，并完美解码，但是读取字母p得时候，因为其只占用一个字节，所以汉字“世”被取一个字节，留下一个字节，未被取走，所以导致“世”字无法被正确解码，而且这也引发连锁效应，后面得字都将被错误得读取，从而乱码。

总之：这也是乱码得一种情况，即“字节数丢失或者不完整造成乱码”。

这里，可能有人会有疑问，“如果将字节数组容量设置非常大，一次将中英文混合文本全部读取，然后再解码，这样不出现文字多次读取，造成汉字字节截断得情况，不就行了吗？”

是的，这种情况可以实现正确解码，但是如果文本超级大，这种方式是不现实得，因为字节数组得容量过大，不现实，还是乖乖的用字符转换流InputStreamReader吧。

下面用一个超大字节数组，将文本一次读取，并完美解码得代码示例：

package cn.edu.uestc.IO;

import java.io.*;

public class TestFileInputStream03 {

    public static void main(String[] args){

        //流

        File file = new File("abc3.txt");

        //源

        InputStream is = null;

        try {

            is = new FileInputStream(file);

            //操作

            byte[] bytes = new byte[20];//数组容量超级大，一次能将中英混合文本全部读取完

            int len = -1;

            while ((len = is.read(bytes))!=-1){

                String str = new String(bytes,0,len,"GBK");

                System.out.print(str);

            }

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }finally{

            //释放资源

            try {

                if (null!=is){

                    is.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

}

/*output：

你好p世界我是潘小白//完美解码

*/

除了上面的情况，读者也可以试试，对于中英文结合的文档，采用UTF-8编码-解码；或者故意将英文字体排布规则，即GBK格式下，2个英文一起排列，放在中文文本中，或者GBK格式下，2个英文一起排列，放在中文文本中。对其进行编码和解码，并分析一下原因。

补充一点：UTF-8编码格式下，一些生僻汉字占4个字节，所以将字节数组容量设置成3的倍数时，面对有生僻字的纯汉字文本，解码时也会出现乱码情况。

——————分割线——————

总结：

上面讨论的三个问题，问题1就是属于编码-解码字符集匹配问题，只是进一步说明了FileInputStream读取的字节数组是哪种编码方式；

问题2和3，是讨论在编码-解码字符集匹配情况下，字节个数不完整或者丢失时，解码时出现乱码的情况，从而说明了用FileInputStream读取时，得到的字节数组无法采用上面 String str = new String(bytes,0,length,"CharacterSet")方式解码，应该采用字符转换流InputStreamReader。

纯文本-FileInputStream的编码与解码方式的更多相关文章

base64编码、解码的C语言实现
转自:http://www.cnblogs.com/yejianfei/archive/2013/04/06/3002838.html base64是一种基于64个可打印字符来表示二进制数据的表示方法 ...
C# Base64方式的编码与解码
编码与解码方法: ///编码 public static string EncodeBase64(string code_type, string code) { string encode = &q ...
form表单提交数据编码方式和tomcat接受数据解码方式的思考
http://blog.sina.com.cn/s/blog_95c8f1ac010198j2.html *********************************************** ...
转 python3中SQLLIT编码与解码之Unicode与bytes
#########sample########## sqlite3.OperationalError: Could not decode to UTF-8 column 'logtype' with ...
Java中的字节，字符与编码，解码
ASCII编码 ASCII码主要是为了表示英文字符而设计的,ASCII码一共规定了128个字符的编码(0x00-0x7F),只占用了一个字节的后面7位,最前面的1位统一规定为0. ISO-8859-1 ...
java编码原理，java编码和解码问题
java的编码方式原理 java的JVM的缺省编码方式由系统的“本地语言环境”设置确定,和操作系统的类型无关 . 在JAVA源文件-->JAVAC-->Class-->Java--& ...
RapidJSON 代码剖析（三）：Unicode 的编码与解码
根据 RFC-7159: 8.1 Character Encoding JSON text SHALL be encoded in UTF-8, UTF-16, or UTF-32. The defa ...
BASE64编码和解码（VC源代码）并内存加载 CImage 图像
BASE64可以用来将binary的字节序列数据编码成ASCII字符序列构成的文本.完整的BASE64定义可见 RFC1421和 RFC2045.编码后的数据比原始数据略长,为原来的4/3.在电子 ...
Android 中的编码与解码
前言:今天遇到一个问题,一个用户在登录的时候,出现登录失败.但是其他用户登录都是正常的,经过调试发现登录失败的用户的密码中有两个特殊字符: * .# . 特殊符号在提交表单的时候,出现了编码不一样的 ...

随机推荐

apache配置防盗链
1.确保apache已开启rewrite. 2.在.htaccess文件中添加如下: RewriteEngine On RewriteCond %{HTTP_REFERER} !^http://X ...
mockito使用
mockito学习资料: http://docs.mockito.googlecode.com/hg/org/mockito/Mockito.html http://blog.csdn.net/sdy ...
Spring整合Struts2框架的第一种方式（Action由Struts2框架来创建）。在我的上一篇博文中介绍的通过web工厂的方式获取servcie的方法因为太麻烦，所以开发的时候不会使用。
1. spring整合struts的基本操作见我的上一篇博文:https://www.cnblogs.com/wyhluckdog/p/10140588.html,这里面将spring与struts2 ...
Parallel.Foreach的基础知识
微软的并行运算平台(Microsoft’s Parallel Computing Platform (PCP))提供了这样一个工具,让软件开发人员可以有效的使用多核提供的性能. Visual Stud ...
css样式优先级和权重问题
内联样式: <div style="font-size: 12px;">姓名</div> 外部样式: <link rel="styleshe ...
【Linux】Jenkins配置和使用（二）
摘要本章介绍Jenkins的简单使用,关于Jenkins的安装,参照[Linux]Jenkins安装(一) 事例说明:在linux环境下,安装的jenkins,集成svn,tomcat的环境,项目是 ...
redis学习-事务命令
multi:开启事务 exec:提交事务 discard:取消事务 1.开启事务之后,每次执行命令之后,都要先进入事务队列中,只有在执行 exec之后才开始执行 2.开启事务之后,每次执行命令之后,都 ...
学习前端的菜鸡对JS 的classList理解
classList 在早期的时候要添加,删除类需要用className去获取,然后通过正则表达式去判断这个类是否存在. 代码上去会有点麻烦,现在有了classList 就方便了很多. ——————— ...
RESTful架构概念
本文转载自:http://www.ruanyifeng.com/blog/2011/09/restful.html 越来越多的人开始意识到,网站即软件,而且是一种新型的软件. 这种"互联网软 ...
python编码（四）
一.预备知识字符集 1, 常用字符集分类 ASCII及其扩展字符集作用:表语英语及西欧语言.位数:ASCII是用7位表示的,能表示128个字符:其扩展使用8位表示,表示256个字符.范围:ASCII ...

纯文本-FileInputStream的编码与解码方式

纯文本-FileInputStream的编码与解码方式的更多相关文章

随机推荐

热门专题