设置utf8编码问题
注意:乱码和request的具体实现类有关,现在已经查到的是RequestDispatcher.forward调用前使用的是org.apache.catalina.connector.RequestFacade类而RequestDispatcher.forward调用后使用的是org.apache.catalina.core.ApplicationHttpRequest,他们内部在ParseParameter的时候, 用来解码的默认的编码逻辑不同,使用不同的协议时,影响乱码的因素不同!
具体参考:Tomcat源码分析--ServletRequest.getParameterValues内部分析,Request字符集&QueryStringEncoding
乱码的产生
譬如汉字“中”,以UTF-8编码后得到的是3字节的值%E4%B8%AD,然后通过GET或者POST方式把这3个字节提交到Tomcat容器,如果你不告诉Tomcat我的参数是用UTF-8编码的,那么tomcat就认为你是用ISO-8859-1来编码的,而ISO8859-1(兼容URI中的标准字符集US-ASCII)是兼容ASCII的单字节编码并且使用了单字节内的所有空间,因此Tomcat就以为你传递的用ISO-8859-1字符集编码过的3个字符,然后它就用ISO-8859-1来解码,得到中-,解码后。字符串中-在Jvm是以Unicode的形式存在的,而HTTP传输或者数据库保存的其实是字节,因此根据各终端的需要,你可以把unicode字符串中-用UTF-8编码后得到相应的字节后存储到数据库(3个UTF-8字符),也可以取得这3个字符对应的ISO-8859-1的3个字节,然后用UTF-8重新编码后得到unicode字符“中”(特性:把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题),然后用response传递给客户端(根据你设置的content-type不同,传递的字节也是不同的!)
总结:
- 1,HTTP GET或者POST传递的是字节?数据库保存的也是字节(譬如500MB空间就是500M字节)
- 2,乱码产生的原因是编码和解码的字符集(方式)不同导致的,即对于几个不同的字节,在不同的编码方案下对应的字符可能不同,也可能在某种编码下有些字节不存在(这也是乱码中?产生的原因)
- 3,解码后的字符串在jvm中以Unicode的形式存在
- 4,如果jvm中存在的Unicode字符就是你预期的字符(编码,解码的字符集相同或者兼容),那么没有任何问题,如果jvm中存在的字符集不是你预期的字符,譬如上述例子中jvm中存在的是3个Unicode字符,你也可以通过取得这3个unicode字符对应的3个字节,然后用UTF-8对这3个字节进行编码生成新的Unicode字符:汉字“中”
- 5,ISO8859-1是兼容ASCII的单字节编码并且使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。
下面的代码显示,使用不同的编码来Encoder会得到不同的结果,同时如果Encoder和Decoder不一致或者使用的汉字在编码ISO-8859-1中不存在时,都会表现为乱码的形式!
![](http://image64.360doc.com/DownloadImg/2013/09/0411/34966423_1.png)
- try {
- // 汉字“中”用UTF-8进行URLEncode的时候,得到%e4%b8%ad(对应的ISO-8859-1的字符是中)
- String item = new String(new byte[] { (byte) 0xe4, (byte) 0xb8, (byte) 0xad }, "UTF-8");
- // 中
- System.out.println(item);
- item = new String(new byte[] { (byte) 0xe4, (byte) 0xb8, (byte) 0xad }, "ISO-8859-1");
- // 中
- System.out.println(item);
- System.out.println(new BigInteger("253").toByteArray());
- System.out.println(Integer.toBinaryString(253));
- // 中
- item = new String(item.getBytes("ISO_8859_1"), "UTF-8");
- System.out.println(item);
- // 中
- item = new String(item.getBytes("UTF-8"), "ISO_8859_1");
- System.out.println(item);
- // 汉字中以UTF-8编码为 %E4%B8%AD(3字节)
- System.out.println(URLEncoder.encode("中", "UTF-8"));
- // 汉字中以UTF-8编码为 %3F (1字节 这是由于汉字在ISO-8859-1字符集中不存在,返回的是?在ISO-8859-1下的编码)
- System.out.println(URLEncoder.encode("中", "ISO-8859-1"));
- // 汉字中以UTF-8编码为 %D6%D0 (2字节)
- System.out.println(URLEncoder.encode("中", "GB2312"));
- // 把汉字中对应的UTF-8编码 %E4%B8%AD 用UTF-8解码得到正常的汉字 中
- System.out.println(URLDecoder.decode("%E4%B8%AD", "UTF-8"));
- // 把汉字中对应的ISO-8859-1编码 %3F 用ISO-8859-1解码得到?
- System.out.println(URLDecoder.decode("%3F", "ISO-8859-1"));
- // 把汉字中对应的GB2312编码 %D6%D0 用GB2312解码得到正常的汉字 中
- System.out.println(URLDecoder.decode("%D6%D0", "GB2312"));
- // 把汉字中对应的UTF-8编码 %E4%B8%AD 用ISO-8859-1解码
- // 得到字符中(这个就是所谓的乱码,其实是3字节%E4%B8%AD中每个字节对应的ISO-8859-1中的字符)
- // ISO-8859-1字符集使用了单字节内的所有空间
- System.out.println(URLDecoder.decode("%E4%B8%AD", "ISO-8859-1"));
- // 把汉字中对应的UTF-8编码 %E4%B8%AD 用GB2312解码
- // 得到字符涓?,因为前2字节 %E4%B8对应的GB2312的字符就是涓,而第3字节%AD在GB2312编码中不存在,故返回?
- System.out.println(URLDecoder.decode("%E4%B8%AD", "GB2312"));
- } catch (UnsupportedEncodingException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
Tomcat关于encoding编码的默认设置以及相关标准:
对于Get请求,"URI Syntax"规范规定HTTP query strings(又叫GET parameters)使用US-ASCII编码,所有不在这个编码范围内的字符,必须经常一定的转码:%61的形式(encode)。又由于ISO-8859-1 and ASCII对于0x20 to 0x7E范围内的字符是兼容的,大部分的web容器譬如Tomcat容器默认使用ISO-8859-1解码URI中%xx部分的字节。可以使用Connector中的URIEncoding来修改这个默认用来解码URI中%xx部分字节的字符集。URIEncoding要和get请求query string中encode的编码一直,或者通过设置Content-Type来告诉容器你使用什么编码来转码url中的字符
POST请求应该自己通过参数Content-Type指定所使用的编码,由于许多客户端都没有设置一个明确的编码,tomcat就默认使用ISO-8859-1编码。注意:用来对URI进行解码的字符集,Request字符集,Response字符集的区别!不同的Request实现中,对于上述3个编码的关系是不同的
对于POST请求,ISO-8859-1是Servlet规范中定义的HTTP request和response的默认编码。如果request或者response的字符集没有被设定,那么Servlet规范指定使用编码ISO-8859-1,请求和相应指定编码是通过Content-Type响应头来设定的。
如果Get、Post请求没有通过Content-Type来设置编码的话,Tomcat默认使用ISO-8859-1编码。可以使用SetCharacterEncodingFilter来修改Tomcat请求的默认编码设置(encoding:使用的编码, ignore:true,不管客户端是否指定了编码都进行设置, false,只有在客户端没有指定编码的时候才进行编码设置, 默认true)
注意:一般这个Filter建议放在所有Filter的最前面(Servlet3.0之前基于filter-mapping在web.xml中的顺序, Servlet3.0之后有参数可以指定顺序),因为一旦从request里面取值后,再进行设置的话,设置无效。因为在第一次从request取值时,tomcat会把querystring或者post方式提交的变量,用指定的编码转成从parameters数组,以后直接从这个数组中获取相应参数的值!
到处都使用UTF-8建议操作:
- 1, Set URIEncoding="UTF-8" on your <Connector> in server.xml.使得Tomcat Http Get请求使用UTF-8编码
- 2, Use a character encoding filter with the default encoding set to UTF-8. 由于很多请求本身没有指定编码, Tomcat默认使用ISO-8859-1编码作为HttpServletRequest的编码,通过filter修改
- 3, Change all your JSPs to include charset name in their contentType. For example, use <%@page contentType="text/html; charset=UTF-8" %> for the usual JSP pages and <jsp:directive.page contentType="text/html; charset=UTF-8" /> for the pages in XML syntax (aka JSP Documents). 指定Jsp页面使用的编码
- 4, Change all your servlets to set the content type for responses and to include charset name in the content type to beUTF-8. Use response.setContentType("text/html; charset=UTF-8") or response.setCharacterEncoding("UTF-8"). 设置Response返回结果的编码
- 5, Change any content-generation libraries you use (Velocity, Freemarker, etc.) to use UTF-8 and to specify UTF-8 in the content type of the responses that they generate.指定所有模版引擎佘勇的编码
- 6, Disable any valves or filters that may read request parameters before your character encoding filter or jsp page has a chance to set the encoding to UTF-8. SetCharacterEncodingFilter一般要放置在第一位,否则可能无效
![](http://image64.360doc.com/DownloadImg/2013/09/0411/34966423_1.png)
- /*
- * Licensed to the Apache Software Foundation (ASF) under one or more
- * contributor license agreements. See the NOTICE file distributed with
- * this work for additional information regarding copyright ownership.
- * The ASF licenses this file to You under the Apache License, Version 2.0
- * (the "License"); you may not use this file except in compliance with
- * the License. You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
- package filters;
- import java.io.IOException;
- import javax.servlet.Filter;
- import javax.servlet.FilterChain;
- import javax.servlet.FilterConfig;
- import javax.servlet.ServletException;
- import javax.servlet.ServletRequest;
- import javax.servlet.ServletResponse;
- /**
- * <p>Example filter that sets the character encoding to be used in parsing the
- * incoming request, either unconditionally or only if the client did not
- * specify a character encoding. Configuration of this filter is based on
- * the following initialization parameters:</p>
- * <ul>
- * <li><strong>encoding</strong> - The character encoding to be configured
- * for this request, either conditionally or unconditionally based on
- * the <code>ignore</code> initialization parameter. This parameter
- * is required, so there is no default.</li>
- * <li><strong>ignore</strong> - If set to "true", any character encoding
- * specified by the client is ignored, and the value returned by the
- * <code>selectEncoding()</code> method is set. If set to "false,
- * <code>selectEncoding()</code> is called <strong>only</strong> if the
- * client has not already specified an encoding. By default, this
- * parameter is set to "true".</li>
- * </ul>
- *
- * <p>Although this filter can be used unchanged, it is also easy to
- * subclass it and make the <code>selectEncoding()</code> method more
- * intelligent about what encoding to choose, based on characteristics of
- * the incoming request (such as the values of the <code>Accept-Language</code>
- * and <code>User-Agent</code> headers, or a value stashed in the current
- * user's session.</p>
- *
- * @author Craig McClanahan
- * @version $Id: SetCharacterEncodingFilter.java 939521 2010-04-30 00:16:33Z kkolinko $
- */
- public class SetCharacterEncodingFilter implements Filter {
- // ----------------------------------------------------- Instance Variables
- /**
- * The default character encoding to set for requests that pass through
- * this filter.
- */
- protected String encoding = null;
- /**
- * The filter configuration object we are associated with. If this value
- * is null, this filter instance is not currently configured.
- */
- protected FilterConfig filterConfig = null;
- /**
- * Should a character encoding specified by the client be ignored?
- */
- protected boolean ignore = true;
- // --------------------------------------------------------- Public Methods
- /**
- * Take this filter out of service.
- */
- public void destroy() {
- this.encoding = null;
- this.filterConfig = null;
- }
- /**
- * Select and set (if specified) the character encoding to be used to
- * interpret request parameters for this request.
- *
- * @param request The servlet request we are processing
- * @param result The servlet response we are creating
- * @param chain The filter chain we are processing
- *
- * @exception IOException if an input/output error occurs
- * @exception ServletException if a servlet error occurs
- */
- public void doFilter(ServletRequest request, ServletResponse response,
- FilterChain chain)
- throws IOException, ServletException {
- // Conditionally select and set the character encoding to be used
- if (ignore || (request.getCharacterEncoding() == null)) {
- String encoding = selectEncoding(request);
- if (encoding != null)
- request.setCharacterEncoding(encoding);
- }
- // Pass control on to the next filter
- chain.doFilter(request, response);
- }
- /**
- * Place this filter into service.
- *
- * @param filterConfig The filter configuration object
- */
- public void init(FilterConfig filterConfig) throws ServletException {
- this.filterConfig = filterConfig;
- this.encoding = filterConfig.getInitParameter("encoding");
- String value = filterConfig.getInitParameter("ignore");
- if (value == null)
- this.ignore = true;
- else if (value.equalsIgnoreCase("true"))
- this.ignore = true;
- else if (value.equalsIgnoreCase("yes"))
- this.ignore = true;
- else
- this.ignore = false;
- }
- // ------------------------------------------------------ Protected Methods
- /**
- * Select an appropriate character encoding to be used, based on the
- * characteristics of the current request and/or filter initialization
- * parameters. If no character encoding should be set, return
- * <code>null</code>.
- * <p>
- * The default implementation unconditionally returns the value configured
- * by the <strong>encoding</strong> initialization parameter for this
- * filter.
- *
- * @param request The servlet request we are processing
- */
- protected String selectEncoding(ServletRequest request) {
- return (this.encoding);
- }
- }
设置utf8编码问题的更多相关文章
- Linux Centos7设置UTF-8编码,防止中文乱码
Linux Centos7设置UTF-8编码,防止中文乱码 # localeLANG=zh_CN.gb2312LC_CTYPE="zh_CN.gb2312"LC_NUMERIC=& ...
- ThinkPHP统一设置utf-8编码
1.项目编码 在编辑器中设置编码utf-8 2.在浏览器中设置编码 //Thinkphp方法中添加header设置utf-8只有index方法解决了乱码 class UserAction extend ...
- Tomcat 中文乱码 设置UTF-8编码 问题解决办法
在Java Web开发中,http请求带有中文字符的URI如果不处理容易出现乱码问题:这是因为Tomcat容器默认编码是iso-8859-1引起的,因此要避免出现乱码就要需要做相应的处理.解决办法如下 ...
- putty mtputty 设置utf8编码
2013年10月30日 10:02:36 先load你指定的ip 然后选择左侧目录中的windows->translation 再在右侧选择utf-8编码 选中后,点击左侧目录中的session ...
- 用VIM设置UTF-8编码的BOM标记
1.去掉BOM标记: :set nobomb 2.加上BOM标记: :set bomb 3.查询当前UTF-8编码的文件是否有BOM标记: :set bomb? 4.更高级一点的: :%!xxd &q ...
- Spring MVC 设置UTF-8编码
按照需求选其中之一即可吧. 修改读取参数时候的编码: 在web.xml中: 添加一个过滤器(filter),注册 org.springframework.web.filter.CharacterEnc ...
- cmd设置utf8编码
在中文windows系统中,如果一个文本文件是utf-8编码的,那么在cmd.exe命令行窗口(所谓的dos窗口)中不能正确显示文件中的内容.在默认情况下,命令行窗口中使用的代码页是中文或者美国的,即 ...
- MySQL - 设置UTF-8编码
1. 在Windows上,安装时请选择UTF-8编码,以便正确地处理中文. 在Mac或Linux上,需要编辑MySQL的配置文件,把数据库默认的编码全部改为UTF-8.MySQL的配置文件默认存放在/ ...
- spring MVC Action里面怎么设置UTF-8编码集
/* 编码转换,确保写数据库的时候不会出现乱码 */ public class CodingConvert{ public CodingConvert(){ // } public String to ...
随机推荐
- udev的使用-minicom没有权限打开串口,更改 ttyUSB0 的权限
udev的使用-minicom没有权限打开串口,更改 ttyUSB0 的权限 使用minicom打开串口会提示没有权限,必需要用 sudo,怎样更改串口设备的权限能够让普通用户读写呢? 事实上仅仅要更 ...
- Cocos2d-X直接使用OpenGL接口
Cocos2d-X是基于基于OpenGL ES的2D游戏引擎,所以Cocos2d-X能够直接使用OpenGL接口 首先建立一个Draw类,用于处理OpenGL接口 在Draw.h中加入以下的代码 #i ...
- 我的IIS7.5竟然不支持ASP.NET路由
MVC模式下那些友好,屏蔽具体物理文件的URL让我眼馋,咱也想在WEB FORM项目用上一用. 按照指引,添加global.asax,写上路由代码什么的: <%@ Application Lan ...
- [Pulgin] 前端上传组件Plupload使用指南
我之前写过一篇文章<文件上传利器SWFUpload使用指南>,里面介绍了上传组件SWFUpload的使用方法,但现在随着html5技术的逐渐推广和普及,再去使用以flash为上传手段的SW ...
- Pop3协议详解
POP3全称为Post Office Protocol version3,即邮局协议第3版.它被用户代理用来邮件服务器取得邮件.POP3采用的也是C/S通信 模型 用户从邮件服务器上接收邮件的典型 ...
- 项目中遇到的所有ECharts图表集合
全放在了ECharts官网示例里面以后会一直往里面添加: https://gallery.echartsjs.com/explore.html?u=bd-2133619855&type=wor ...
- [hihocoder][Offer收割]编程练习赛43
版本号排序 不知道什么傻逼原因,就是过不了 #pragma comment(linker, "/STACK:102400000,102400000") #include<st ...
- 获取URL路径参数getUrlParams
function getUrlParams(){ var reg = new RegExp("(^|&)" + name + "=([^&]*)(& ...
- SQL触发器 inset自学经验
本人建立了一个特价汇网站,想要记录每个商品的点击量和整个网站的访问量,于是就想用sql 触发器来实现 drop trigger tgr_cg_records_update_column create ...
- Redis 四:存储类型之散列类型
1.散列类型表达方式简介: =========================================== 键 字段 值 =================================== ...