1. 汉字字符串与unicode之间的转换

1.1 stringToUnicode






/**





 * 获取字符串的unicode编码





 * 汉字“木”的Unicode 码点为Ox6728





 *





 * @param s 木





 * @return \ufeff\u6728  \ufeff控制字符 用来表示「字节次序标记（Byte Order Mark）」不占用宽度





 * 在java中一个char是采用unicode存储的 占用2个字节 比如 汉字木 就是 Ox6728 4bit+4bit+4bit+4bit=2字节





 */





public static String stringToUnicode(String s) {





	try {





		StringBuffer out = new StringBuffer("");





		//直接获取字符串的unicode二进制





		byte[] bytes = s.getBytes("unicode");





		//然后将其byte转换成对应的16进制表示即可





		for (int i = 0; i < bytes.length - 1; i += 2) {





			out.append("\\u");





			String str = Integer.toHexString(bytes[i + 1] & 0xff);





			for (int j = str.length(); j < 2; j++) {





				out.append("0");





			}





			String str1 = Integer.toHexString(bytes[i] & 0xff);





			out.append(str1);





			out.append(str);





		}





		return out.toString();





	} catch (UnsupportedEncodingException e) {





		e.printStackTrace();





		return null;





	}





}

测试






    @Test





    public void testGetUnicode() throws Exception {





        String str = "木";





        String s = EncodeUtil.stringToUnicode(str);





        System.out.println(s);  //Ox6728





    }

1.2 unicodeToString






/**





     * Unicode转 汉字字符串





     *





     * @param str \u6728





     * @return '木' 26408





     */





public static String unicodeToString(String str) {





 





	Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");





	Matcher matcher = pattern.matcher(str);





	char ch;





	while (matcher.find()) {





		//group 6728





		String group = matcher.group(2);





		//ch:'木' 26408





		ch = (char) Integer.parseInt(group, 16);





		//group1 \u6728





		String group1 = matcher.group(1);





		str = str.replace(group1, ch + "");





	}





	return str;





}

测试






    @Test





    public void testUnicodeToString() throws Exception {





        String str = "\\u6728";





        String s = EncodeUtil.unicodeToString(str);





        System.out.println(s);  //木





    }

2. 汉字字符串与UTF-8之间的转换

2.1 ConvertStringToUTF8






/**





 * 汉字 转换为对应的 UTF-8编码





 * @param s 木





 * @return E69CA8





 */





public static String convertStringToUTF8(String s) {





	if (s == null || s.equals("")) {





		return null;





	}





	StringBuffer sb = new StringBuffer();





	try {





		char c;





		for (int i = 0; i < s.length(); i++) {





			c = s.charAt(i);





			if (c >= 0 && c <= 255) {





				sb.append(c);





			} else {





				byte[] b;





				b = Character.toString(c).getBytes("utf-8");





				for (int j = 0; j < b.length; j++) {





					int k = b[j];





					//转换为unsigned integer  无符号integer





					/*if (k < 0)





						k += 256;*/





					k = k < 0? k+256:k;





					//返回整数参数的字符串表示形式 作为十六进制（base16）中的无符号整数





					//该值以十六进制（base16）转换为ASCII数字的字符串





					sb.append(Integer.toHexString(k).toUpperCase());





 





					// url转置形式





					// sb.append("%" +Integer.toHexString(k).toUpperCase());





				}





			}





		}





	} catch (Exception e) {





		e.printStackTrace();





	}





	return sb.toString();





}

测试






@Test





public void testConvertStringToUTF8() {





	String str = "木";





	String s = EncodeUtil.convertStringToUTF8(str);





	System.out.println(s);  //E69CA8





}

2.2 ConvertUTF-8ToString






/**





 * UTF-8编码 转换为对应的 汉字





 *





 * @param s E69CA8





 * @return 木





 */





public static String convertUTF8ToString(String s) {





	if (s == null || s.equals("")) {





		return null;





	}





	try {





		s = s.toUpperCase();





		int total = s.length() / 2;





		//标识字节长度





		int pos = 0;





		byte[] buffer = new byte[total];





		for (int i = 0; i < total; i++) {





			int start = i * 2;





			//将字符串参数解析为第二个参数指定的基数中的有符号整数。





			buffer[i] = (byte) Integer.parseInt(s.substring(start, start + 2), 16);





			pos++;





		}





		//通过使用指定的字符集解码指定的字节子阵列来构造一个新的字符串。





		//新字符串的长度是字符集的函数，因此可能不等于子数组的长度。





		return new String(buffer, 0, pos, "UTF-8");





	} catch (UnsupportedEncodingException e) {





		e.printStackTrace();





	}





	return s;





}

测试






@Test





public void testConvertUTF8ToString() {





	String str = "E69CA8";





	String s = EncodeUtil.convertUTF8ToString(str);





	System.out.print(s);  //木





}

3. unicode与utf-8之间的转换

3.1 unicode转为utf8






//将unicode转换为utf-8





@Test





public void testUnicodeToUtf8() {





	String str = "\\u6728";





	//unicode转换为String String再转换为utf-8





	String s = EncodeUtil.convertStringToUTF8(EncodeUtil.unicodeToString(str));





	System.out.println(s);





}

3.2 utf8转为unicode






//将utf-8转换为unicode





@Test





public void testUTF8ToUnicode() {





	String str = "E69CA8";





	//utf-8先转String String再转unicode





	String s = EncodeUtil.stringToUnicode(EncodeUtil.convertUTF8ToString(str));





	System.out.println(s);





}

总结来说：

1. java中的一个char是两个字节，以unicode方式存储在内存中。

2. 一个典型的错误是

String s = new String(”木”.getBytes(“utf-8”),”gbk”);

为什么会报错呢？原因是 utf-8编码的字节数组怎能使用gbk来解析呢？一个汉字在utf-8下占用3个字节，而在gbk下占用2个字节，是无法解析的。

3. java中提供了将汉字编码为utf8的方法 UrlEncoder.encode()以及解码的方法UrlDecoder.decode()

参考：

Java unicode中文编码转换和反转

 java 汉字与UTF-8十六进制编码间相互转换方法

 java中char与汉字占用字节个数问题

java中unicode utf-8以及汉字之间的转换工具类的更多相关文章

java中数组、集合、字符串之间的转换，以及用加强for循环遍历
java中数组.集合.字符串之间的转换,以及用加强for循环遍历: @Test public void testDemo5() { ArrayList<String> list = new ...
java中列表，集合，数组之间的转换
java中列表,集合,数组之间的转换 java中列表,集合,数组之间的转换 java中列表,集合,数组之间的转换 List和Set都是接口,它们继承Collection(集合),集合里面任何数据 ...
Json与javaBean之间的转换工具类
/** * Json与javaBean之间的转换工具类 * * {@code 现使用json-lib组件实现 * 需要 * json-lib-2.4-jdk15.jar * ...
Android Bitmap与DrawAble与byte[]与InputStream之间的转换工具类【转】
package com.soai.imdemo; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; ...
Java Int类型与字符，汉字之间的转换
/** * java 中的流主要是分为字节流和字符流 * 再一个角度分析的话可以分为输入流和输出流 * 输入和输出是一个相对的概念相对的分别是jvm虚拟机的内存大小 * 从另一个角度讲Java或者用 ...
Java基础知识强化106：Java中 int 的各进制之间的转换
1.二.八.十.十六进制之间的转换下面是示例代码,我们直接通过JDK工具库中的方法实现的,如下: public static Integer valueOf(String s, int radix ...
怎样在Java中实现基本数据类型与字符之间的转换
摘要:在我们对Java的学习当中数据类型之间的转换,是我们常见的事,我们也都知道基本数据类型之间有自动转换和强制转换,在int . short . long .float .double之间的转 ...
java中byte，byte[]和int之间的转换
1>byte类型转换为,直接隐式转换,适用于要求保持数值不变,例如要求进行数值计算如 byte b=0x01; int i=b; 2>另一种是要求保持最低字节中各个位不变,3个高字节全部 ...
Android单位转换（px、dp、sp之间的转换工具类）
在Android开发中,涉及到屏幕视频问题的时候,px.dp.sp之间的转换比较重要的一部分,所以杨哥整理了一个工具类给大伙用. package com.zw.express.tool; import ...

随机推荐

[Angular] Use Angular’s @HostBinding and :host(...) to add styling to the component itself
One thing that we can do is to add styles directly to HTML elements that live within our component. ...
regexp模式匹配+location页面跳转+cookie/localstorage本地存储
学习js的过程中,根据知识点编写一些code进行测试,以便检验. 这段程序使用了以下知识点: 1.regexp,对数据进行模式匹配 2.使用location对象进行页面跳转. 3.cookie/loc ...
Altium Designer中的粉红色网格和绿色框框
（转）ORA-01940: cannot drop a user that is currently connected 问题解析
删除数据库用户的时候经常会遇到这样的错误: ORA: cannot drop a user that is currently connected 原因是有程序在连接我们需要删除的用户,我们删除用户之 ...
$_SERVER['DOCUMENT_ROOT']
$_SERVER['DOCUMENT_ROOT'] 一.总结 $_SERVER 是一个包含了诸如头信息(header).路径(path).以及脚本位置(script locations)等等信息的数组 ...
Hadoop集群日常运维分类： A1_HADOOP 2015-03-01 21:26 502人阅读评论(0) 收藏
(一)备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用.因此应该经常对元数据进行备份,最好是异地备份. 1.将元数据复制到远程站点 (1)以下代码将 ...
css3-11 如何实现2D动画
css3-11 如何实现2D动画一.总结一句话总结:就是transform属性,属性值为1.translate() 2.rotate() 3.scale(),而这是哪个属性值是带参数的 ...
ios开发网络学习九：NSURLSessionDownloadTask实现大文件下载
一:NSURLSessionDownloadTask:实现文件下载:无法监听进度 #import "ViewController.h" @interface ViewControl ...
ios开发图层layer与核心动画二：CATransform3D，CAlayear和UIView区别，layer的position和anchorpoint
一:CATransform3D #import "ViewController.h" @interface ViewController () @property (weak, n ...
J2EE&JavaEE概述
来源 Sun公司在1998年发表JDK1.2版本的时候, 使用了新名称Java 2 Platform,即"Java2平台",修改后的JDK称为Java 2 Platform Sof ...

java中unicode utf-8以及汉字之间的转换工具类