不要小看小小的 emoji 表情
前言
好久没更新了,最近事比较多,或许下个月就会恢复到正常的发文频次。
这篇文章得从一个 emoji
表情开始,我之前开源的一个 IM
项目中有朋友提到希望可以支持 emoji
表情传输。
https://github.com/crossoverJie/cim/issues/12
正好那段时间有空,加上这功能看着也比较简单准备把它实现了。
但在真正实现时却发现没那么简单。
我首先尝试将一个 emoji
表情存入数据库看看:
果不其然的出错了,导致这个异常的原因是目前数据库所支持的编码中并不能存放 emoji
,那 emoji
表情到底是个什么东西呢。
本质上来说计算机所存储的信息都是二进制 01
,emoji
也不例外,只要存储和读取(编解码)的方式一致那就可以准确的展示这个信息。
更多编解码的内容后文再介绍,这里先想想如何快速解决问题。
存储 emoji
虽说想要在 MySQL
中存储 emoji
的方式也有好几种,比如可以升级存储字符集到可以存放 emoji
,但这种需要 MySQL
的版本支持。
所以更保险的方式还是在应用层解决,比如我们是否可以将 emoji 当做字符串存储,只是显示的时候要格式化为一个 emoji 表情,这样对于所有的数据库版本都可兼容。
于是我们这里的需求是一个 emoji
表情转换为字符串,同时还得将这个字符串转换为 emoji。
为此我在 GitHub
上找到了一个库,它可以方便的将一个 emoji
转换为字符串的别名,同时也支持将这个别名转换为 emoji
。
https://github.com/vdurmont/emoji-java
@Test
public void emoji() throws Exception{
String str = "An :grinning:awesome :smiley:string 😄with a few :wink:emojis!";
String result = EmojiParser.parseToUnicode(str);
System.out.println(result);
result = EmojiParser.parseToAliases(str);
System.out.println(result);
}
所以基于这个基础库最终实现了表情功能。
其实它本质上是自己维护了一个 emoji 的别名及它的 Unicode 编码(本质上是 UTF-16
)的映射关系,再每次格式化数据的时候都会从这个表中进行翻译。
编码知识回顾
自此需求是完成了,但还有几个问题待解决。
Java
中是如何存储emoji
的?emoji
是如何进行编码的?
ASCII
在谈 emoji
之前非常有必要了解下计算机编码鼻祖的 ASCII 码。
大家现在都知道在计算机内部存储数据本质上都是二进制的 0/1,对于一个字节来说有 8 位;每一位可以表示两种状态,也就是 0 或 1,这样排列组合下来,一个字节就可以表示 256(2∧8) 种不同的状态。
对于美国来说他们日常使用的英语只需要 26 个英文字母,再加上一些标点符号就足够用计算机来进行信息交流。
于是上个世纪 60年代定义了一套二进制与英文字符的映射关系,可以表明 128 个不同的英文字符,也就是现在的 ASCII
码。
这样我们就可以使用一个字节来表示现代英文,看起来非常不错。
Unicode
随着计算机的发展,逐渐在欧洲、亚洲地区流行;再利用这套 ASCII
码进行信息交流显然是不行的,很多地区压根就不使用英文,而且也远超了 128 位字符(中文就更不用说了)。
虽说一个字节在 ASCII
码中只用了 128
位,但剩下(258-128
)的依然不足用用于描述其他语言。
这时如果能有一种包含了世界上所有的文字的字符集,每一个地区的文字都在这个字符集中有唯一的二进制表示,这样便不会出现乱码问题了。
Unicode
就是来做这个的,截止目前 Unicode
已经收录了 10W+ 的字符,你所能使用的字符都包含进去了。
UTF-8
Unicode
虽说包含了几乎所有的文字,但在我们日常使用好像很少看到他的身影,我们用的更多的还是 UTF-8
这样的编码规则。
这也有几方面的原因,比如说除开英文,其他大部分的文字都需要用 2 个甚至更多的字节来表示;如果统一都用 Unicode 来表示,那必然需要以占用字节最多的字符长度为标准。
比如汉字需要 2 个字节来表示,而英文只需要一个字节;这时就得规定 2 个字节表示一个字符,不然汉字就没法表示了。
但这样也会带来一个问题:用两个字节表示英文会使得第一个字节完全是浪费的,如果一段信息全是英文那对内存的浪费是巨大的。
这时大家应该都能想到,我们需要一个可变的长度的字符编码规则,当是英文时我们就用一个字节表示,甚至可以完全兼容 ASCII 码。
UTF-8 便是实现这个需求的,它利用两种规则可以表示一个字节以及多字节的字符。
大致规则如下:
- 当第一个字节的第一位为 0 时便表示为单字节字符,此时和 ASCII 码一致,完全兼容。
- 当第一个字节为 1 时,有几个 1 便代表是几个字节 Unicode 字符。
这样便可根据字符的长度最大程度的节省存储空间。
当然还有其他的编码规则,比如 UTF-16
、UTF-32
,平时用的不多,但本质上都和 UTF-8
一样,都是 Unicode
的不同实现,也是用于表示世界上大部分文字的字符集。
Java 中的 emoji
现在来回到本次的主题,emoji
。
刚才说到 Unicode
包含了世界上大部分的字符,emoji
自然也不例外。
https://apps.timwhitlock.info/emoji/tables/unicode
这个表格中包含了所有的 emoji
以及它所对应的 Unicode
编码,同时也有对应的 UTF-8
编码的实现。
从图中也可以看出 emoji
表情用 UTF-8
表示时会占用 4 个字节,那在 Java 中它会是怎么存储的呢?
很简单,debug 一下就知道了。
在 Java
中也是通过 char
来存储 emoji
的,char
作为基本数据类型会占用 2 个字节;从刚才的图中可以看出,emoji
使用 UTF-8
会占用四个字节,这样很明显 char
是没法存储的,所以在这里其实是使用 UTF-16
编码进行存储。
基于这个原理,我们也可以自己实现将一个 emoji
表情转换为字符串,同时也可通过字符串转换为 emoji
。
总结
从这次研究 emoji
可以看出,任何一门基础知识都是应用的根基,在计算机行业尤为突出,希望大家看完这篇能回忆起大学课堂被老师支配的恐惧
不要小看小小的 emoji 表情的更多相关文章
- 移动前端手机输入法自带emoji表情字符处理
今天,测试给我提了一个BUG,说移动端输入emoji表情无法提交.很早以前就有思考过,手机输入法里自带的emoji表情,应该是某些特殊字符.既然是字符,那应该都能提交才对,可是为啥会被卡住呢?搜了一下 ...
- JS操作Unicode编码的emoji表情显示在页面
前言:项目中用到了emoji表情,后端传递数据时直接是以Unicode形式,在页面总是无法展示,找尽各种方法总算是试出了一种,虽然达到效果但是并不是特别理解其中的原理并且无比笨拙,贴在这用作笔记,如果 ...
- IOS Emoji表情
IOS Emoji 前言:我比较喜欢有趣的东西,有一些有趣的小东西,可能不是多么多么牛逼,也可能不需要多高深的技巧,也不会为其他什么强大的功能而服务,但是有时候将很多有趣的小东西组合起来运用,比如在你 ...
- 有关emoji表情以及utf-16编码
昨日IOS组的同事遇到一个棘手的问题:当输入框内含有emoji表情时,如何获取文本框内的字符数(一个emoji表情算一个字符). 先从我最近接触的JAVA说起,JAVA中,在使用S ...
- iOS emoji表情转码 或者判断
如果项目中有评论或者信息恢复的地方,往往会用到emoji,有时候如后台不支持emoji,就会显示乱码错误,我们可以把emoji转成unicode编码或者utf8编码格式传给服务器.当然如果后台服务器接 ...
- mysql支持IOS的Emoji表情
原因: UTF-8编码有可能是两个.三个.四个字节.Emoji表情是4个字节,而Mysql的utf8编码最多3个字节,所以数据插不进去. 解决办法: 将Mysql的编码从utf8转换成utf8mb4 ...
- iOS 获取emoji表情和拦截emoji表情
1 2 //将数字转为 #define EMOJI_CODE_TO_SYMBOL(x) ((((0x808080F0 | (x & 0x3F000) >> 4) | (x &a ...
- 让mysql支持emoji表情
一.问题及原因 APP产品想对Emoji进行支持,但发现mysql数据库无法写入表情.原因是我们的mysql数据库默认用的是utf8编码,utf8编码存储时用的是三个字节,但Emoji表情是4个字节, ...
- emoji表情初探
2015年12月28日 14:24:51 星期一 首先注意的地方: 1. emoji是需要操作系统支持的, 例如: ios更新时, 会在升级日志里说明, 增加了对多少个emoji图标的支持. 原理上是 ...
随机推荐
- Wtm携手LayUI -- .netcore 开源生态我们是认真的!
经过WTM团队和LayUI团队多次深入协商,双方于2019年7月29日在北京中国国际展览中心正式达成战略合作意向, 双方签署了战略合作框架协议,LayUI团队承诺使用WTM框架的任何项目都可以免费使用 ...
- Angualr6表单提交验证并跳转
在Angular6中,使用NG-ZRROR作为前端开发框架,在进行表单开发时遇到了一些问题,最后解决了,在此记录. 1.表单构造: 引入forms: import { FormGroup, FormB ...
- SpringMVC学习笔记之---深入使用
SpringMVC深入使用 (一)基于XML配置的使用 (1)配置 1.SpringMVC基础配置 2.XML配置Controller,HandlerMapping组件映射 3.XML配置ViewRe ...
- Activiti6系列(1)- 核心数据库表及字段注释说明
前言 本文是根据<疯狂工作流讲义-Activiti6.0>一书中提取过来的,有兴趣的可以去当当网买这本书,讲的很不错,最后还有实战案例. 虽然是提取过来的,但完全靠手打梳理,觉得有用的小伙 ...
- java并发编程(四)----(JUC)Lock锁初探
首先我们来回忆一下上一节讲过的synchronized关键字,该关键字用于给代码段或方法加锁,使得某一时刻它修饰的方法或代码段只能被一个线程访问.那么试想,当我们遇到这样的情况:当synchroniz ...
- CODING 告诉你如何建立一个 Scrum 团队
原文地址:https://www.atlassian.com/agile/scrum/roles 翻译君:CODING 敏杰小王子 Scrum 当中有三个角色:PO(product owner),敏捷 ...
- 利用cookie实现浏览器中多个标签页之间的通信
原理: cookie是浏览器端的存储容器,而且它是多页面共享的,利用cookie多页面共享的特性,可以实现多个标签页的通信. 比如: 一个标签页发送消息(将发送的消息设置到cookie中),一个标签页 ...
- centos7单机安装kafka,进行生产者消费者测试
[转载请注明]: 原文出处:https://www.cnblogs.com/jstarseven/p/11364852.html 作者:jstarseven 码字挺辛苦的..... 一.k ...
- 带图标和多行显示的ListBox
源码https://www.codeproject.com/Articles/15464/Extending-the-ListBox-to-show-more-complex-items 定义控件 u ...
- java并发系列 - 第28天:实战篇,微服务日志的伤痛,一并帮你解决掉
这是java高并发系列第28篇文章. 环境:jdk1.8. 本文内容 日志有什么用? 日志存在的痛点? 构建日志系统 日志有什么用? 系统出现故障的时候,可以通过日志信息快速定位问题,修复bug,恢复 ...