Java编码与乱码问题

一、为什么要编码？

由于人类的语言太多，因而表示这些语言的符号太多，无法用计算机的一个基本的存储单元----byte来表示，因而必须要经过拆分或一些翻译工作，才能让计算机能理解。

byte一个字节即8个bit,所以能表示的字符范围是0~255个，这满足不了人类的需要，要解决这个矛盾必须需要一个新的数据结构char,从char到byte必须经过编码。

二、常用编码介绍

ASCII码

总共128个，用一个字节的低7位表示，0~31是控制字符，如换行、回车、删除等，32~126是打印字符，可以通过键盘输入并且能够显示出来.

ISO-8859-1

扩展自ASCII，仍然是单字节编码，一共能表示256个字符

GB2312

双字节编码。总编码范围A1~F7 ，其中A1~A9是符号区，包含682个符号，从B0~F7是汉字区，包含6763个汉字

GBK

扩展自GB2312，能表示21003个汉字，其编码和GB2312是兼容的。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符

GB18030

在实际应用系统中使用的并不广泛

Unicode

Unicode 是 Java 和 XML 的基础，使用0～65 535的双字节无符号数对每一个字符进行编码

UTF-8

是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码，使用Unicode编码，一个英文字符要占用两个字节，在Internet上，大多数的信息都是用英文来表示的，如果都采用Unicode编码，将会使数据量增加一倍。为了减少存储和传输英文字符数据的数据量，可以使用UTF-8编码。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：
GBK、GB2312－－Unicode－－UTF8
UTF8－－Unicode－－GBK、GB2312

三、对乱码产生过程的分析

为了让使用Java语言编写的程序能在各种语言的平台下运行，Java在其内部使用Unicode字符集来表示字符，这样就存在Unicode字符集和本地字符集进行转换的过程。当在Java中读取字符数据的时候，需要将本地字符集编码的数据转换为Unicode编码，而在输出字符数据的时候，则需要将Unicode编码转换为本地字符集编码。
例如，在中文系统下，从控制台读取一个字符“中”，实际上读取的是“中”的GBK编码0xD6D0，在Java语言中要将GBK编码转换为Unicode编码0x4E2D，此时，在内存中，字符“中”对应的数值就是0x4E2D，当我们向控制台输出字符时，Java语言将Unicode编码再转换为GBK编码，输出到控制台，中文系统再根据GBK字符集画出相应的字符。
从上述过程来看，读取和写入的过程是可逆的，那么理应不会出现中文乱码问题。然而，实际应用的情形，比上述过程要复杂得多。在Web应用中，通常都包括了浏览器、Web服务器、Web应用程序和数据库等部分，每一部分都有可能使用不同的字符集，从而导致字符数据在各种不同的字符集之间转换时，出现乱码的问题。
在Java语言中，不同字符集编码的转换，都是通过Unicode编码作为中介来完成的。例如，GBK编码的字符“中”要转换为ISO-8859-1编码，其过程如下：
（1）因为在Java中的字符，都是用Unicode来表示的，所以GBK编码的字符“中”要转换为Unicode表示：0xD6D0->0x4E2D。
（2）将字符“中”的Unicode编码转换为ISO-8859-1编码，因为Unicode编码0x4E2D在ISO-8859-1中没有对应的编码，于是得到0x3f，也就是字符“?”。

下面的代码演示了这一过程：

  1 /GBK编码的字符“中”转换为Unicode编码表示
  2 String str="中";
  3 //将字符“中”的Unicode编码转换为ISO-8859-1编码
  4 byte[] b=str.getBytes("ISO-8859-1");
  5 for(int i=0;i<b.length;i++) {
  6         //输出转换后的二进制代码。
  7         System.out.print(b[i]);
  8 }

当从Unicode编码向某个字符集转换时，如果在该字符集中没有对应的编码，则得到0x3f（即问号字符?）。这就是为什么有时候我们输入的是中文，在输出时却变成了问号。

从其他字符集向Unicode编码转换时，如果这个二进制数在该字符集中没有标识任何的字符，则得到的结果是0xfffd。例如一个GBK的编码值0x8140，从GB2312向Unicode转换，然而由于0x8140不在GB2312字符集的编码范围（0xa1a1-0xfefe），当然也就没有对应任何的字符，所以转换后会得到0xfffd。

下面的代码演示了这一过程。

  1 // 构造一个二进制数据。
  2         byte[] buf = { (byte) 0x81, (byte) 0x40, (byte) 0xb0, (byte) 0xa1 };
  3         // 将二进制数据按照GB2312向Unicode编码转换。
  4         String str = new String(buf, "GB2312");
  5         for (int i = 0; i < str.length(); i++) {
  6             // 取出字符串中的每个Unicode编码的字符。
  7             char ch = str.charAt(i);
  8             // 将该字符对应的Unicode编码以十六进制的形式输出。
  9             System.out.print(Integer.toHexString((int) ch));
 10             System.out.print("--");
 11             // 输出该字符。
 12             System.out.println(ch);
 13         }

四、web开发避免中文乱码

1.Jquery的get、 post方式提交中文乱码

Ajax方式提交,如果参数中带有中文参数,最好就是指定页面格式的编码.Jquery这里默认使用utf-8的编码

值得注意的是: 在$.get()、$.post()方式中,要指定内容返回的内容的contentType格式.

  1 get方法传文字字符串就会有乱码，因为是通过url传参的。
  2 所以你要在js客户端经过2次转码，同样服务器端也要转码。
  3 $.get("AjaxService?userName=" + encodeURI(encodeURI(userName)), null, function (data) {
  4 $("#result").html(data);
  5 });
  6 这2个效果是一样的：encodeURIComponent(userName) 、 encodeURI(encodeURI(userName))
  7 服务器端转码：String userName = URLDecoder.decode(request.getParameter("userName"), "UTF-8");

因为应用服务器会自动帮你做一次URLDecode，所以再加上你自己在代码里面写的URLDecode，一共就是两个Decode了

一般情况下, 发送 encodeURIComponent(parmeName)+"="+encodeURIComponent(parmeValue);
接收时, 直接 String paramValue = request.getParameter(paramName); // 容器自动解码.
我们知道 encodeURIComponent 使用的是 UTF-8 编码规则来编的.
如果 request.getParameter(paramName) 时,容器也按 UTF-8 解的话,是正确的. 根本无须在客户端
进行二次的 encodeURIComponent(...)
如果 request.getParameter(paramName),容器没有按 UTF-8 解的话, 结果只有一个,就是乱码!
容器按什么编码来解码,决定于 request.setCharacterEncoding(***) 或者服务器程序配置.
如果你在 jsp 程序中,能够 request.setCharacterEncoding("UTF-8"), 并且修改服务器配置,让容器在解 GET 提交的参数时,使用 UTF-8.
客户端提交前不用二次编码, 接收时,也只要直接 request.getParameter(paramName) 即可

Java、escape(str)和unescape(str);

对String对象进行编码或者解码，以便它们能在所有计算机上可读;str中的非ASCII字符都是用【%xx】来表示的,其中xx表示该字符的16进制数,例如空格返回的是”%20”,字符值大于255的以%uxxxx格式存储

注意：escape()方法不能够对统一资源标识码(URI)进行编码,对其编码应使用encodeURI()和encodeURIComponent()方法;

unescape()方法不能解码URI,解码需使用decodeURI()和decodeURIComponent();

这里建议参考Commons-lang3包中的StringEscapeUtils

2.JSP与页面参数传参乱码

(1)页面编码不一致

  1 <%@ page contentType="text/html; charset=gb2312"%>
  2 ...
  3 <meta http-equiv="Content-Type" content="text/html charset=gb2312">
  4 ...

使用Servlet规范中的过虑器指定编码，过滤器的在web.xml中的典型配置和主要代码如下：

web.xml:

  1 <filter>
  2    <filter-name>CharacterEncodingFilter</filter-name>
  3    <filter-class>cn.com.tony.web.CharacterEncodingFilter</filter-class>
  4        <init-param>
  5        <param-name>encoding</param-name>
  6        <param-value>GBK</param-value>
  7        </init-param>
  8  </filter>
  9 <filter-mapping>
 10  <filter-name>CharacterEncodingFilter</filter-name>
 11 <url-pattern>/*</url-pattern> </filter-mapping>

CharacterEncodingFilter.java代码段:

  1 public class CharacterEncodingFilter implements Filter {
  2     protected String encoding = null;
  3     public void init(FilterConfig filterConfig) throws ServletException   {
  4         this.encoding = filterConfig.getInitParameter("encoding");
  5     }
  6     public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException {
  7         request.setCharacterEncoding(encoding);
  8         response.setContentType("text/html;charset="+encoding);
  9         chain.doFilter(request, response);
 10     }
 11 }

或者使用框架提供的乱码过滤器如Spring

  1 <filter>
  2         <filter-name>EncodingFilter</filter-name>
  3     <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>
  4         <init-param>
  5             <param-name>encoding</param-name>
  6             <param-value>GBK</param-value>
  7         </init-param>
  8         <init-param>
  9             <param-name>forceEncoding</param-name>
 10             <param-value>true</param-value>
 11         </init-param>
 12     </filter>
 13     <filter-mapping>
 14         <filter-name>EncodingFilter</filter-name>
 15         <url-pattern>/*</url-pattern>
 16     </filter-mapping>

3.链接传参乱码

在传参的jsp对中文进行编码：href="new.jsp?name=java.net.URLEncoder.encode("链接")";

在接受的jsp对中文进行转码：String str = URLDecoder.decode(request.getParameter("name "), "utf-8");

读取的编码格式要跟页面中设置的编码格式一致。

4.网页编码格式设置:

(1)、指定文件的存储编码，很明显，该设置应该置于文件的开头。例如：<%@page pageEncoding="GBK"%>,正常显示中文，如果不设置默认是iso8859-1，它是不支持中文的。

(2)、jsp输出,即：browser显示网页的时候，首先使用response.setCharacterEncoding()中指定的编码，也可以是<%@ page contentType="text/html; charset= GBK" %>。如果未指定，则会使用网页中meta项指定中的contentType。

(3)、 meta设置

指定网页使用的编码，该设置对静态网页尤其有作用。因为静态网页无法采用jsp的设置，而且也无法执行response.setCharacterEncoding()。例如：<META http-equiv="Content-Type" content="text/html; charset=GBK" />而在jsp中meta的优先级最低，没有以上两种的编码时才采用这中编码推荐只用utf-8,它支持所有字符。

若是Servlet显示网页就用response.setContentType("text/html;charset=utf-8");

5.数据库读取乱码

大部分数据库都支持以unicode编码方式，所以解决Java与数据库之间的乱码问题比较明智的方式是直接使用unicode编码与数据库交互。很多数据库驱动自动支持unicode，其他大部分数据库驱动，可以在驱动的url参数中指定，如 mysql驱动：jdbc:mysql://localhost/MYTEST?useUnicode=true&characterEncoding=GBK。

6.浏览器编码异常

乱码问题

  1 <%@ page language="java" contentType="text/html; charset=GBK" pageEncoding="GBK"%>
  2 ......
  3 <%
  4 //*****写在首行*****//
  5 request.setCharacterEncoding("UTF-8");
  6 ...
  7 %>

在浏览器中，中文通过url传递都会默认被编码，所以在url中的中文还必须编码后再使用,

使用 <form>...</form> 提交的,浏览器才会编码.

<form>提交时,浏览器使用什么编码编,决定于 form 的 accept-charset 属性(标准浏览器) 或者 document.charset(IE)
<form accept-charset="...." >...</form>
提交 application/x-form-www-encoded 表单时,浏览器把所有参数按 key=value 的形式组合
分别对 key, value 进行编码.
多个参数间,用 "&" 连接, 如: key2=%E4%B8%AD%E6%96%87&key=AAAA&key=BBB&key1=CCC&%E6%B1%89%E5%AD%97=%E4%B8%AD%E6%96%87
ajax 提交的,需要自己手动设置编码

浏览器url编码
eg : "2014中华小当家"先编码成utf-8,再在url地址栏中传递,ie10地址栏输入中文不会乱码，火狐和chrome会，

7.通过参数设置接口编码

WebUtils.java

  1 public static String getQueryValue(String queryString,String key){
  2         if(queryString==null || queryString.length()==0)return null;
  3         int reqIdx = queryString.indexOf(key);//req_enc=utf-8&resp_enc=gbk
  4         String enc = null;
  5         if(reqIdx!=-1){
  6             reqIdx = reqIdx+key.length();
  7             int endIdx = reqIdx;
  8             for (;
  9             endIdx < queryString.length() && queryString.charAt(endIdx)!='&';
 10             endIdx++) {
 11             }
 12             if(endIdx>reqIdx){
 13                 enc = queryString.substring(reqIdx,endIdx);
 14                 if(!enc.equalsIgnoreCase("gbk")
 15                         && !enc.equalsIgnoreCase("utf-8")){
 16                     enc = null;
 17                 }else{
 18                     System.err.println("error :"+key+" is "+ enc);
 19                 }
 20             }
 21         }
 22         return enc;
 23     }

setCharset.jsp

  1 <%@ page contentType="text/html;charset=GBK"  %><%
  2 String queryString = request.getQueryString();
  3 String reqEnc = getQueryValue(queryString,"req_enc=");
  4 if(reqEnc!=null){
  5     request.setCharacterEncoding(reqEnc);
  6 }
  7 String respEnc = getQueryValue(queryString,"resp_enc=");
  8 if(respEnc!=null){
  9     response.setCharacterEncoding(respEnc);
 10 }
 11 %>

五、总结

上面提到的方法应该能解决大部分乱码问题，如果在其他地方还出现乱码，可能需要手动修改代码。解决Java乱码问题的关键在于在字节与字符的转换过程中，你必须知道原来字节或转换后的字节的编码方式，转换时采用的编码必须与这个编码方式保持一致,否则将会出现Java文乱码。

参考：

浏览器url编码

解决JSP中文乱码问题

注：本文来注：本文来源于：cnblogs：牛奶、不加糖