字符串转码中文乱码问题的进一步理解 UTF-8 GBK转码

首先要明确指出一点：

编码方式是针对字符串转换之后的字节数组的，字符串并没有编码方式的概念，因为字符串不管是在什么编码页面下他只是一个对象，他只有字符的概念，不管页面编码方式是什么，他始终都是那几个字符　　　　

众所周知，字符编码很多像UTF-8、GBK、GB2312、ISO8859-1等等其中GBK是兼容GB2312的

　　重点是UTF-8编码下的中文占3个字节，GBK、GB2312编码下的中文占2个字节，当我们把一个字符串解析为UTF-8的字节时，

　　如果进行了业务处理，再转为GBK那么很容易就出现了乱码，很显然两种编码中文字节占用位数都不一样，

网上很多人说GBK转UTF-8的方法如下：

//以下代码是错误的   
String str="双节棍爱好友h为太原";

   byte[]tem=str.getBytes("GBK");

  String result=new String(tem,"UTF-8");

　我可以很负责的说这个是错误的结果是乱码这个我已经试过是错误的

　字符串就是个对象你用什么编码去获取字节数组，那么你将字节数组重新还原字符串的时候就用对应的编码

//正确的方式
String name="金黄色的sfdf弗兰克的但safd撒酒疯";

          byte[] gbkBytes=name.getBytes("GBK");

              System.out.println(new String(gbkBytes,"GBK"));

          byte[] utfBytes=name.getBytes("UTF-8");

              System.out.println(new String(utfBytes,"UTF-8"));

如果要把字符串转换为UTF-8的字节数组可以用以下两种方法：

byte[] retString=name.getBytes("UTF-8");

或者：

public static byte[] getUTF8Bytes(String name) {

        int n = name.length();

        byte[] utfBytes = new byte[3 * n];

        int k = 0;

        for (int i = 0; i < n; i++) {

            int m = name.charAt(i);

            if (m < 128 && m >= 0) {

                utfBytes[k++] = (byte) m;

                continue;

            }

            utfBytes[k++] = (byte) (0xe0 | (m >> 12));

            utfBytes[k++] = (byte) (0x80 | ((m >> 6) & 0x3f));

            utfBytes[k++] = (byte) (0x80 | (m & 0x3f));

        }

        if (k < utfBytes.length) {

            byte[] tmp = new byte[k];

            System.arraycopy(utfBytes, 0, tmp, 0, k);

            return tmp;

        }

        return utfBytes;

    }

　　　　严禁盗版

　　　转载请注明出处：https://www.cnblogs.com/bimingcong/p/9185472.html

字符串转码中文乱码问题的进一步理解 UTF-8 GBK转码的更多相关文章

一句python，一句R︱python中的字符串操作、中文乱码、NaN情况
一句python,一句R︱python中的字符串操作.中文乱码.NaN情况先学了R,最近刚刚上手Python,所以想着将python和R结合起来互相对比来更好理解python.最好就是一句pytho ...
smarty中用truncate来截取中英文字符串及避免中文乱码问题
smarty中用truncate来截取含有中英文的字符串,可能会出现中文乱码问题.字符串截取长度不一问题,下面是新建个扩展函数,或修改原Truncate函数方法也可以的.扩展smarty/plugin ...
关于MySQL 5.6 中文乱码的问题(尤其是windows的gbk编码)
一般MySQL 数据库乱码由以下几种情况造成(按照顺序): 1. 创建数据库的时候没设置编码,解决办法: 就是在创建数据库的时候设置编码, 例如: CREATE DATABASE `mydb` CHA ...
一句python，一句R︱python中的字符串操作、中文乱码
先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python.最好就是一句python,对应写一句R. pandas可谓如雷贯耳,数据处理神器. 以下符号: = ...
eclipse下查看maven下载的源码中文乱码问题
在项目中设置通过maven下载源代码和javadoc,直接通过eclipse浏览源代码时,发现中文为乱码.解决方法如下: 修改Eclipse中文本文件的默认编码:windows->Prefere ...
jni和C++通信中文乱码的问题
转自 http://www.cnblogs.com/bluesky4485/archive/2011/12/13/2285802.html 首先,需要明确几个关于编码的基本概念: java内部是使用的 ...
转：jsp页面显示中文乱码解决方案
jsp页面显示中文乱码: jsp页面的编码方式有两个地方需要设置: <%@ page language="java" import="java.util.*&quo ...
JSP页面的中文乱码
jsp页面显示中文乱码: jsp页面的编码方式有两个地方需要设置: <%@ page language="java" import="java.util. ...
node爬虫之gbk网页中文乱码解决方案
之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决,今天整理下备忘.(PS:网上一些解决方案都已经不行了) 中文乱码具体是指用 node 请求 gbk 编码的网页,无法正确获取网页中的中文(需 ...

随机推荐

MySQL Execution Plan--NOT EXISTS子查询优化
在很多业务场景中,会使用NOT EXISTS语句来确保返回数据不存在于特定集合,部分场景下NOT EXISTS语句性能较差,网上甚至存在谣言"NOT EXISTS无法走索引". 首 ...
What’s New In GRANDstack?
转自:https://blog.grandstack.io/whats-new-in-grandstack-310c067fea4a There’s been a lot of activity in ...
Fabric的@runs_once的理解
1:runs_once的用法,一直没理解,我看网上都是说:“函数修饰符,标识的函数只会执行一次,不受多台主机影响” 实在没理解,然后看了一下官方文档,这样解释举个例子: #!/usr ...
1.2.3 Excel中姓名处理，将名加密星号
在对应的单元格中我们输入公式: =IF(LEN(A22)>2,REPLACE(A22,2,LEN(A22)-1,"**"),REPLACE(A22,2,LEN(A22)-1, ...
chrome's developer console
原文链接: https://medium.freecodecamp.org/10-tips-to-maximize-your-javascript-debugging-experience-b69a7 ...
jekins构建触发器详解-日程表的使用
日程表参数解释如下: 第一个参数代表的是分钟 minute,取值 0~59: 第二个参数代表的是小时 hour,取值 0~23: 第三个参数代表的是天 day,取值 1~31: 第四个参数代表的是月 ...
Linux服务器调教日常
本文为Linux服务器调教日常,不保证正确. 1. sshd配置: https://www.cnblogs.com/byeyear/p/9289063.html 2. 禁止普通用户su 1. 编辑/e ...
ANSI编码导致的乱码
美帝那边的一个 donet 项目,打开后发现一段string里面各种乱码.一通折腾后发现是编码格式问题.这段string所在的类文件保存格式为ANSI,而不是VS默认的UTF-8. ANSI编码电脑是 ...
KMS服务器激活WIN方法
KMS激活的过程简单说就是:欲激活的电脑向KMS服务器请求,KMS服务器做出回应同意激活. KMS激活软件是将KMS服务器用一段代码来模拟,做成一个可执行的程序(即所谓的KMS伺服器).KMS激活软件 ...
[SQL]T-Sql 递归查询（给定节点查所有父节点、所有子节点的方法）
T-Sql 递归查询(给定节点查所有父节点.所有子节点的方法) -- 查找所有父节点with tab as( select Type_Id,ParentId,Type_Name from Sys_ ...

字符串转码中文乱码问题的进一步理解 UTF-8 GBK转码

字符串转码中文乱码问题的进一步理解 UTF-8 GBK转码的更多相关文章

随机推荐

热门专题