Java内存中的字符编码

Unicode字符集及utf-8 、utf-16、utf-32 等字符编码方式

字符集:字符表示的数字集合,元素称为码点或码位;

字符编码:字符实际的储存表示;

码点:一个码点对应 一个字符;

utf-8编码:可变长编码,一个字符编码使用 1或2或3或4个字节表示; https://blog.csdn.net/hezh1994/article/details/78899683

utf-32编码:定长编码,一个字符编码使用4个字节

utf-16编码:结合可变长编码及定长编码,BMP平面字符编码2个字节,SMP平面字符比编码使用4字节;

Java内存中字符(char变量或String(char[]))以utf-16BE编码存在

 
utf-16 BMP平面(代理区U+0000至U+FFFF除外)的码点,以1个码元(16比特即2字节)编码;SMP平面的码点以2个码元(32比特)编码
因此Java内存中char类型变量只能表示BMP平面的一个字符,表示SMP平面的字符使用String对象。 

String str = new String(Character.toChars(0x1D56B)); // 一个字符

字符从内存输出,如何显示在屏幕 ?

//System.out.println(strings);

System.out.print() 将内存中的字符串(char[])按utf-16解码为unicode码点,再以系统编码方式(如utf-8,将码点编码)输出字节流,
控制台收到的字节流,以相同的方式(utf-8)解码为unicode码点
系统将码点以图形的形式显示

测试代码

(1)SMP平面字符

String str = new String(Character.toChars(0x1D56B)); //UTF-16 representation stored ,所以这个unicode扩展字符保存在内存的需要 2个char

System.out.println("码点: "+Integer.toHexString(str.codePointAt(0)));
System.out.println("utf-8编码的内存形式: 字节数量 "+str.getBytes().length); //4
System.out.println("utf-8编码的内存形式: 字节序列 "+Arrays.toString(str.getBytes())); //IDE设置使用 utf-8
System.out.println("utf-16编码的内存形式: 双字节(码元)数量 "+str.toCharArray().length); //2
System.out.println("utf-16编码的内存形式: 双字节(码元)序列 "+"["+Integer.toHexString((int)str.charAt(0))+","+Integer.toHexString((int)str.charAt(1))+"]");
//System.out.println(str.toCharArray()); //显示为特殊字符
System.out.println("字符串长度(码元): "+str.length()); //2 java统计字符串长度实际是计算char[]数组长度(码元总数),而不是字符(码点)个数
System.out.println("字符串字符(码点)个数: "+str.codePointCount(0,str.length())); //1

输出结果:

码点: 1d56b
utf-8编码的内存形式: 字节数量 4
utf-8编码的内存形式: 字节序列 [-16, -99, -107, -85]
utf-16编码的内存形式: 双字节(码元)数量 2
utf-16编码的内存形式: 双字节(码元)序列 [d835,dd6b]
字符串长度(码元): 2
字符串字符(码点)个数: 1

(2)BMP平面字符

String s = new String(Character.toChars(0x4f60));
System.out.println("码点: "+Integer.toHexString(s.codePointAt(0)));

System.out.println("utf-8编码的内存形式: 字节数量 "+s.getBytes().length); //3
System.out.println("utf-8编码的内存形式: 字节序列 "+Arrays.toString(s.getBytes())); //IDE设置使用 utf-8
System.out.println("utf-16编码的内存形式: 双字节(码元)数量 "+s.toCharArray().length); //1
System.out.println("utf-16编码的内存形式: 双字节(码元)序列 "+"["+Integer.toHexString((int)s.charAt(0))+"]");
System.out.println("字符串长度(码元): "+s.length()); //1 java统计字符串长度实际是计算char[]数组长度(码元总数),而不是字符(码点)个数
System.out.println("字符串字符(码点)个数: "+s.codePointCount(0,s.length())); //1

输出结果:

码点: 4f60
utf-8编码的内存形式: 字节数量 3
utf-8编码的内存形式: 字节序列 [-28, -67, -96]
utf-16编码的内存形式: 双字节(码元)数量 1
utf-16编码的内存形式: 双字节(码元)序列 [4f60]
字符串长度(码元): 1
字符串字符(码点)个数: 1

001. Java内存中的字符编码的更多相关文章

  1. javaEE中的字符编码问题

    0 web.xml中注册的CharacterEncodingFilter <!-- 配置字符集过滤器 --> <filter> <filter-name>encod ...

  2. java中的字符编码方式

    1. 问题由来 面试的时候被问到了各种编码方式的区别,结果一脸懵逼,这个地方集中学习一下. 2. 几种字符编码的方式 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符 ...

  3. Java基础-二进制以及字符编码简介

    Java基础-二进制以及字符编码简介 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 想必计算机毕业的小伙伴或是从事IT的技术人员都知道数据存储都是以二进制的数字存储到硬盘的.从事开 ...

  4. 浅析白盒审计中的字符编码及SQL注入

    尽管现在呼吁所有的程序都使用unicode编码,所有的网站都使用utf-8编码,来一个统一的国际规范.但仍然有很多,包括国内及国外(特别是非英语国家)的一些cms,仍然使用着自己国家的一套编码,比如g ...

  5. APACHE2.4 指定目录中的字符编码

    APACHE2.4 指定目录中的字符编码 xampp 的 apache2.4 默认字符编码是西文,中文字符显示乱码,在 httpd.conf 没有 AddDefaultCharset utf-8 这样 ...

  6. 面试题:java内存中的堆区和数据结构中的堆有什么区别

    java内存中的堆是一个  链表, 数据结构中的堆:就是一个栈

  7. SpringBoot(八):SpringBoot中配置字符编码 Springboot中文乱码处理

    SpringBoot中配置字符编码一共有两种方式 方式一: 使用传统的Spring提供的字符编码过滤器(和第二种比较,此方式复杂,由于时间原因这里先不介绍了,后续补上) 方式二(推荐使用) 在appl ...

  8. java中处理字符编码(网页与数据库)(转)

    首先声明一下,此文章时从网上转载的.如下的某些方法是确实管用,但是从中发现了有一点不足,就是原文笔者没考虑使用不同Web Server时出现的情况,比如文章里我用红色字体画出来的部分代码在Tomcat ...

  9. Java 语言中一个字符占几个字节?

    Java中理论说是一个字符(汉字 字母)占用两个字节. 但是在UTF-8的时候 new String("字").getBytes().length 返回的是3 表示3个字节 作者: ...

随机推荐

  1. Spark学习之数据读取与保存总结(一)

    一.动机 我们已经学了很多在 Spark 中对已分发的数据执行的操作.到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的.但有时候,数据量可能大到无法放在一台机器中,这时就需要探 ...

  2. 基于滴答清单 Web 开发的 PC 客户端

    基于滴答清单 Web 开发的 PC 客户端 关于「滴答清单」 滴答清单是一款不可多得的 GTD 效率工具,它有着清晰明了的界面设计.恰到好处的功能设置.稳定的同步服务,如果你还缺少一款简洁而有效的 G ...

  3. MySQL之父造访腾讯云 为腾讯云数据库开源点赞

    近日,技术大牛 MariaDB 公司创始人兼CTO Michael Widenius(又名Monty).MariaDB 基金会主席 Kaj 来到中国,针对MariaDB与腾讯云的技术合作进行回访.去年 ...

  4. 《前端之路》之 前端图片 类型 & 优化 & 预加载 & 懒加载 & 骨架屏

    目录 09: 前端图片 类型 & 优化 & 预加载 & 懒加载 & 骨架屏 09: 前端图片 类型 & 优化 & 预加载 & 懒加载 & ...

  5. 安全性测试:OWASP ZAP使用入门指南

    免责声明: 本文意在讨论使用工具来应对软件研发领域中,日益增长的安全性质量测试需求.本文涉及到的工具不可被用于攻击目的. 1. 安全性测试 前些天,一则12306用户账号泄露的新闻迅速发酵,引起了购票 ...

  6. JQuery --- 第三期 (jQuery事件相关)

    个人学习笔记 1.JQuery事件绑定 <!DOCTYPE html> <html lang="en"> <head> <meta cha ...

  7. Cesium 实现粒子效果贴地(伪)

    有时我们面对这样的需求,需要在地面上放一个周期性放大缩小的标记,可以使用粒子效果实现,但是粒子效果图片很难贴地(如果你知道怎么做,欢迎分享,期待有人打我脸),我只能变通实现一个看似贴地但实际没有贴地的 ...

  8. Git原理与命令大全

    Git (wiki: en  chs )是一个免费开源的分布式版本控制系统,由linux内核作者linus Torvalds开发,大型开源项目linux kernel.Android.chromium ...

  9. Ambari自定义Service

    一.Ambari基本架构   img016.jpg Ambari Server 会读取 Stack 和 Service 的配置文件.当用 Ambari 创建服务的时候,Ambari Server 传送 ...

  10. 关于raft算法

    列出一些比较好的学习资料, 可以经常翻一番,加深印象 0 raft官方git 1  raft算法动画演示 2    Raft 为什么是更易理解的分布式一致性算法 3  raft一致性算法 4  Raf ...