理解并解决GBK转UTF-8奇数中文乱码（转）

最近在做一个反馈功能，把数据反馈到对方公司网站，我公司是GBK编码，对方公司是UTF-8编码。因此，我需要将GBK编码数据转换成UTF-8编码数据，这样对方网站才不会乱码。最简单的方法是将HttpClient的ContentCharset设置为utf-8；如果ContentCharset是gbk并且又不想设置为utf-8，那么就需要将数据转换成UTF-8编码再发到对方网站。

问题出现：GBK转UTF-8时，奇数个中文会乱码，偶数个中文不会乱码。
三个中文

public static void encodeError() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
我来??
*/

前面三个中文，后面一个中文，都是奇数

public static void encodeError2() throws UnsupportedEncodingException {
String gbk = "今年是2011年";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
今年??011??
*/

原因：为什么只有奇数个中文才乱码，偶数个却不乱码？下面来分析原因

public static void analyze() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63
*/

注意最后一个字节不同，上面一行才是正确的UTF-8编码。那么为什么下面一行最后一个字节是63，而不是-122呢？这就是导致乱码的原因所在。
GBK编码是一个中文2个字节，而UTF-8编码是一个中文3个字节，当我们调用getBytes("UTF-8")方法时，会通过计算来增加字节，使得从GBK的2个字节变成UTF-8对应的3个字节。因此，上例3个中文输出了9个字节。

这里讲一下怎么通过计算增加字节，不深究的读者可以跳过此段。为了醒目，直接用代码讲解

public static void gbk2Utf() throws UnsupportedEncodingException {
String gbk = "我来了";
char[] c = gbk.toCharArray();
byte[] fullByte = new byte[3*c.length];
for (int i=0; i<c.length; i++) {
String binary = Integer.toBinaryString(c[i]);
StringBuffer sb = new StringBuffer();
int len = 16 - binary.length();
//前面补零
for(int j=0; j<len; j++){
sb.append("0");
}
sb.append(binary);
//增加位，达到到24位3个字节
sb.insert(0, "1110");
sb.insert(8, "10");
sb.insert(16, "10");
fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二进制字符串创建整型
fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();
fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();
}
//模拟UTF-8编码的网站显示
System.out.println(new String(fullByte,"UTF-8"));
}

现在我们来找出最后一个字节是63，而不是-122的原因。

public static void analyze2() throws UnsupportedEncodingException {
String gbk = "我来了";
byte[] utfBytes = gbk.getBytes("UTF-8");//得到9个字节
String utf8 = new String(utfBytes);//问题就出在这
System.out.print(utf8);
}
/*
鎴戞潵浜?
*/

因为文件是GBK编码，new String(utfBytes)默认就是new String(utfBytes,"GBK")。它会2个字节2个字节地转换成字符，当字节是奇数时最后1个字节转字符就会计算错误，然后直接赋予最后这个字符为?，对应ASCII代码就是63。

解决问题
保证字节正确才是硬道理。当调用getBytes("UTF-8")转换成字节数组后，创建ISO-8859-1编码的字符串，ISO-8859-1编码是一个字节对应一个字符，因此不会使最后一个字节错误。

public static void correctEncode() throws UnsupportedEncodingException {
String gbk = "我来了";
String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
for (byte b : iso.getBytes("ISO-8859-1")) {
System.out.print(b + " ");
}
System.out.println();
//模拟UTF-8编码的网站显示
System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
我来了
*/

http://www.iteye.com/topic/1097560

理解并解决GBK转UTF-8奇数中文乱码（转）的更多相关文章

解决python语言在cmd下中文乱码的问题
解决python语言在cmd下中文乱码的问题: a = "再见!"print (a.decode('utf-8').encode('gbk')) #解决在cmd下中文乱码的问题
解决@ResponseBody注解返回的json中文乱码问题
1. 简介主要解决@ResponseBody注解返回的json中文乱码问题. 2.解决方案 2.1mvc加上注解(推荐此方法) 在mvc配置文件中假如下面配置(写在 <mvc:annotati ...
解决get方法传递URL参数中文乱码问题
[转]解决get方法传递URL参数中文乱码问题来自:http://www.javaeye.com/topic/483158 应用一:解决tomcat下中文乱码问题(先来个简单的) 在tomcat下, ...
spring boot 解决后台返回 json 到前台中文乱码之后出现返回json数据报错 500：no convertter for return value of type
问题描述 spring Boot 中文返回给浏览器乱码解析成问号?? fastJson jackJson spring boot 新增配置解决后台返回 json 到前台中文乱码之后,出现返回json ...
关于Androdi中SQLITE 3采用GBK编码存储，数据库中文乱码问题。
1.最近开发一个项目,用SQLite Expert Personal打开数据库如下图,title会产生乱码,问题. 2.由于SQL lite默认是存储UTF-8格式,后来更改数据库编码类型为ANSI, ...
QT笔记之解决QT5.2.0和VS2012中文乱码以及在Qt Creator中文报错
转载:http://bbs.csdn.net/topics/390750169 VS2012 中文乱码 1.方法一: 包含头文件 #include <QTextCodec> ....... ...
分布式监控系统Zabbix-3.0.3-完整安装记录（4）-解决zabbix监控图中出现中文乱码问题
之前部署了Zabbix-3.0.3监控系统,在安装数据库时已经将zabbix库设置了utf-8字符. 首先确定zabbix开启了中文支持功能:登录到zabbix服务器的数据目录下(前面部署的zabbi ...
[转]解决get方法传递URL参数中文乱码问题
来自:http://www.javaeye.com/topic/483158 应用一:解决tomcat下中文乱码问题(先来个简单的) 在tomcat下,我们通常这样来解决中文乱码问题: 过滤器代码: ...
SSM框架：解决后台传数据到前台中文乱码问题，使用@ResponseBody返回json 中文乱码
解决方法一:@RequestMapping(value="/getphone",produces = "text/plain;charset=utf-8") / ...
[oracle]解决centos 7下oracle的中文乱码问题
首先在形成中文乱码的原因是由于字符集不统一导致的,不同的字符集在转换的过程中必然要出现乱码,当然不排除可以转换.所以要解决中文乱码问题,思路是将输入.存储.显示等流程中涉及到字符集都统一为一种,对于o ...

随机推荐

我的Python成长之路---第一天---Python基础（2）---2015年12月26日（雾霾）
三.数据类型 Python基本类型(能够直接处理的数据类型有以下几种)主要有5种 1.整数(int) Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如 ...
Win32 Windows编程十二
一.对话框 1.对话框的分类 2.对话框的基本使用方式 3.对话框资源 4.有模式对话框的使用 5. 无模式对话框的使用 5.1 加入对话框资源 5.2 定义窗体处理函数 BOOL CALLBACK ...
CIconListBox带图标的列表框类
有时候,我们需要在列表框ListBox中插入带图标的文字项,这就需要自己派生一个类出来了,网上的一个CIconListBox类还不错,网站http://www.codeguru.com/Cpp/con ...
使用tmux [FreeBSDChina Wiki]
使用tmux [FreeBSDChina Wiki] 使用tmux tmux是一个优秀的终端复用软件,类似GNU Screen,但来自于OpenBSD,采用BSD授权.使用它最直观的好处就是,通过一个 ...
【Tesseract-OCR】在VS2012环境下调用API方法---注意避免名字冲突
由于在VS2012中使用OpenCV可以得到插件ImageWatch.vsix的支持,查看图像非常方便,所以一直想在VS2012环境下把Tesseract-OCR融合进来,但是这一错误折腾了我好久: ...
EasyUI - Datatable转Json and Json转Datatable
using System; using System.Data; using System.Linq; using System.Collections; using System.Collectio ...
【linux】UBUNTU 12.04下傻瓜式简单安装arm-linux-gcc等gnu arm toolchain交叉编译工具
欢迎转载,转载时请保留作者信息,谢谢. 邮箱:tangzhongp@163.com 博客园地址:http://www.cnblogs.com/embedded-tzp Csdn博客地址:http:// ...
Appium 命令行启动配置
Appium 安装过后,会有图形界面,同样也支持命令行参数的启动和配置 Windws: 在windows 安装配置Appium有三种方式: Node install -g appium .exe文件安 ...
Qt图片显示效率的比较转
转http://blog.sina.com.cn/s/blog_5c70dfc80100r257.html 在Qt中处理图片一般都要用到QImage类,但是QImage的对象不能够直接显示出来,要想能 ...
Windows Azure入门教学系列 (五)：使用Queue Storage
本文是Windows Azure入门教学的第五篇文章. 本文将会介绍如何使用Queue Storage.Queue Storage提供给我们一个云端的队列.我们可以用Queue Storage来进行进 ...

理解并解决GBK转UTF-8奇数中文乱码（转）

理解并解决GBK转UTF-8奇数中文乱码（转）的更多相关文章

随机推荐

热门专题