特殊字符(包括emoji)梳理和UTF8编码解码原理（转）

转自:https://www.jianshu.com/p/57c27d67a8a8 背景知识 emoji表情符号,是20世纪90年代由NTT Docomo栗田穣崇(Shigetaka Kurit)创建的,词义来自日语(えもじ,e-moji,moji在日语中的含义是字符).emoji可以使数字通信做到让人如同面对面交流,避免错误传达信息. 在NTT DoCoMo的i-mode系统电话系统中,绘文字的尺寸是12x12 像素,在传送时,一个图形有2个字节. 自苹果公司发布的iOS 5输入法中加入了em…

Qt Creator无法用“UTF-8”编码解码

在Qt Creator 里打开其他编辑器的代码时有时会提示: 无法用"UTF-8"编码解码在文件上右键使用NotePad++编辑器打开: 选择->格式->转为UTF-8 无BOM编码格式然后保存关闭,在使用Qt Creator打开即可 …

ajax请求参数中含有特殊字符"#"的问题 (另附上js编码解码的几种方法)

使用ajax向后台提交的时候由于参数中含有# 默认会被截断只保留#之前的字符 json格式的字符串则不会被请求到后台的action 可以使用encodeURIComponent在前台进行编码,C#后台使用Server.UrlDecode(paras)解码来解决此问题前台js编码: $.ajax({ url: "", type: "POST", data: { "paras": encodeURIComponent(JSON.string…

VB6的UTF8编码解码

'UTF-8编码 Public Function UTF8Encode(ByVal szInput As String) As String Dim wch As String Dim uch As String Dim szRet As String Dim x As Long Dim inputLen As Long Dim nAsc As Long Dim nAsc2 As Long Dim nAsc3 As Long…

base64编码解码原理

计算机只能处理数字,所以要处理任何文本,只能先将文本转化为数字才行. Bit(bit)(b) 位或比特,是计算机运行的基础,属于二进制的范畴.数据传输大多是以[位]为单位,一个位即代表一个0或者1(即二进制),每8个位组成一个字节. Byte(B)字节,是计算机中文件大小的基本计量单位.数据存储就是以字节为单位.1B = 8b.所以一个字节最大能表述的数字是255[11111111] 编码: ASCII编码:1个字节,所以只能处理英文数字和一些符号. UNICODE编码:通常是2个字节,它把所有…

【学习笔记】Base64编码解码原理及手动实现（C#）

1.[Base64编码原理]@叶落为重生 -base64的编码都是按字符串长度,以每3个8bit的字符为一组,-然后针对每组,首先获取每个字符的ASCII编码,-然后将ASCII编码转换成8bit的二进制,得到一组3*8=24bit的字节-然后再将这24bit划分为4个6bit的字节,并在每个6bit的字节前面都填两个高位0,得到4个8bit的字节-然后将这4个8bit的字节转换成10进制,对照Base64编码表 (下表),得到对应编码后的字符. (注:1. 要求被编码字符是8bit的,所以须在…

通过javascript进行UTF-8编码

通过javascript进行UTF-8编码 javascript的字符集: javascript程序是使用Unicode字符集编写的.Unicode是ASCII和Latin-1的超集,并支持地球上几乎所有的语言.ECMAScript3要求JavaScript必须支持Unicode2.1及后续版本,ECMAScript5则要求支持Unicode3及后续版本.所以,我们编写出来的javascript程序,都是使用Unicode编码的. UTF-8 UTF-8(UTF8-bit Unicode Tra…

HDBn编解码原理 n阶高密度双极性码

/*------------------------------------------------------------------ HDB3 编码解码原理 // 转载 ------------------------------------------------------------------*/ 要了解HDB3码的编码规则,首先要知道AMI码的构成规则,AMI码就是把单极性脉冲序列中相邻的“1”码(即正脉冲)变为极性交替的正.负脉冲.将“0”码保持不变,把“1”码变为+1.-…

JavaScript进行UTF-8编码与解码

JavaScript本身可通过charCodeAt方法得到一个字符的Unicode编码,并通过fromCharCode方法将Unicode编码转换成对应字符. 但charCodeAt方法得到的应该是一个16位的整数,每个字符占用两字节.在网络上传输一般采用UTF-8编码,JavaScript本身没有提供此类方法.不过有一个简便的办法来实现UTF-8的编码与解码. Web要求URL的查询字符串采用UTF-8编码,对于一些特殊字符或者中文等,会编码成多个字节,变成%加相应16进制码的形式.比如:汉字…

【Java】如何检测、替换4个字节的utf-8编码（此范围编码包含emoji表情）

> 参考的优秀文章 1.十分钟搞清字符集和字符编码 2.Java中byte与16进制字符串的互相转换 3.[异常处理]Incorrect string value: '\xF0\x90\x8D\x83...' for column... Emoji表情字符过滤的Java实现 4.Why a surrogate java regexp finds hypen-minus > 如何检测.替换4个字节的utf-8编码(此范围编码包含emoji) 项目有个需求,是保存从手机端H5页面提交的信息. 大家…

mysql 配置utf8 编码,支持 emoji 方法!!!

utf8_general_ci 已经过时了...请以后用mysql 考虑使用 utf8mb4, utf8mb4_unicode_ci!!! 兼容性更好. mysql的utf8编码的一个字符最多3个字节,但是一个emoji表情为4个字节,所以utf8不支持存储emoji表情.但是utf8的超集utf8mb4一个字符最多能有4字节,所以能支持emoji表情的存储.下面介绍了关于如何修改mysql数据库的编码格式变为utf8mb4的具体方法. Linux系统中mysql的配置文件为my.cnf.(注…

javascript中的Base64.UTF8编码与解码详解

javascript中的Base64.UTF8编码与解码详解本文给大家介绍的是javascript中的Base64.UTF8编码与解码的函数源码分享以及使用范例,十分实用,推荐给小伙伴们,希望大家能够喜欢. Base64编码说明 Base64编码要求把3个8位字节(3*8=24)转化为4个6位的字节(4*6=24),之后在6位的前面补两个0,形成8位一个字节的形式. 如果剩下的字符不足3个字节,则用0填充,输出字符使用'=',因此编码后输出的文本末尾可能会出现1或2个'='. base64编码…

Python8_关于编码解码和utf-8

关于编码:ASCII码是早期的编码规范,只能表示128个字符.7位二进制数表示扩展ASCII码,由于ASCII码不够用,ASCII表扩充到256个符号,不同的国家有不同的标准:8位二进制数 Unicode 准确来说不是编码格式,而是字符集.这个字符集包含了世界上所有的符号所有字符长度统一用16位表示,因此字符是定长的: GB2312 在ASCII码表的基础上,小于127的字符意义与原来相同,而将大于127的字节连在一起,表示汉字前一个字节从0xA1(161)到0xF7(247)共87个,称为高…

iOS Emoji表情编码/解码

之前做弹幕的时候遇到的表情编码解码问题表情编码一般是使用unicode编码 ,编码之后的格式 \ud83d\ude18\ud83d\ude18world\u4e16\u754chaha\ud83d\ude17 //编码 NSString *uniStr = [NSString stringWithUTF8String:[_barrageText.text UTF8String]]; NSData *uniData = [uniStr dataUsingEncoding:NSNonLossyA…

编码解码--三种常见字符编码简介：ASCII、Unicode和UTF-8

什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. ASCII编码: 由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母.数字和一些符…

第一百零八节，JavaScript，内置对象，Global对象字符串编码解码，Math对象数学公式

JavaScript,内置对象,Global对象字符串编码解码,Math对象数学公式学习要点: 1.Global对象 2.Math对象 ECMA-262对内置对象的定义是:"由ECMAScript实现提供的.不依赖宿主环境的对象,这些对象在ECMAScript程序执行之前就已经存在了."意思就是说,开发人员不必显示地实例化内置对象:因为它们已经实例化了.ECMA-262只定义了两个内置对象:Global和Math. 一．Global对象 Global(全局)对象是ECMAScript…

关于JAVA字符编码：Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

我们最初学习计算机的时候,都学过ASCII编码. 但是为了表示各种各样的语言,在计算机技术的发展过程中,逐渐出现了很多不同标准的编码格式, 重要的有Unicode.UTF.ISO-8859-1和中国人经常使用的GB2312.BIG5.GBK等. 1.编码基础知识最早的编码是iso8859-1,和ascii编码相似.但为了方便表示各种各样的语言,逐渐出现了很多标准编码,重要的有如下几个. 1.1. ISO-8859-1 通常叫做Latin-1 属于单字节编码,最多能表示的字符范围是0-255,应…

idna与utf-8编码漏洞

来自Black hat 2019 原理什么是IDN?国际化域名(Internationalized Domain Name,IDN)又名特殊字符域名,是指部分或完全使用特殊文字或字母组成的互联网域名,包括中文.发育.阿拉伯语.希伯来语或拉丁字母等非英文字母,这些文字经过多字节万国码编码而成.在域名系统中,国际化域名使用punycode转写并以ASCII字符串存储. 什么是idna?A library to support the Internationalised Domain Names in…

[转]utf8编码原理详解

from : http://blog.csdn.net/baixiaoshi/article/details/40786503 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.…

理清Java中的编码解码转换

1.字符集及编码方式概括:字符编码方式及大端小端详细:彻底理解字符编码可以通过Charset.availableCharsets()获取Java支持的字符集,以JDK8为例,得到其支持的字符集: SortedMap<String, Charset> charsets = Charset.availableCharsets(); System.out.println(charsets.size()); for (String key : charsets.keySet()) { Syste…

做网站用UTF-8编码还是GB2312编码？

经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, WordPress程序是用的UTF-8,很多cms用的是GB2312. 经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, WordPress程序是用的UTF-8,很多cms用的是GB2312. ● 为什么有这么多编码? ● UTF-8和GB2312有什么区别? ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好? 一. 各…

详解JavaScript中的Url编码/解码，表单提交中网址编码

本文主要针对URI编解码的相关问题做了介绍,对Url编码中哪些字符需要编码.为什么需要编码做了详细的说明,并对比分析了Javascript 中和编解码相关的几对函数escape / unescape,encodeURI / decodeURI和 encodeURIComponent / decodeURIComponent. 预备知识 foo://example.com:8042/over/there?name=ferret#nose \_/ \______________/ \_______…

Javascript与C#编码解码

(一) Javascript与C#编码解码的对应关系 http://www.jb51.net/article/44062.htm 这篇文章主要是对JS与C#编码解码进行了详细的介绍,需要的朋友可以过来参考下,希望对大家有所帮助. escape不编码字符有69个:*,+,-,.,/,@,_,0-9,a-z,A-Z encodeURI不编码字符有82个:!,#,$,&,',(,),*,+,,,-,.,/,:,;,=,?,@,_,~,0-9,a-z,A-Z encodeURIComponent…

关于 MySQL UTF8 编码下生僻字符插入失败/假死问题的分析

原文:http://my.oschina.net/leejun2005/blog/343353 目录[-] 1.问题:mysql 遇到某些中文插入异常 2.原因:此 utf8 非彼 utf8 3.解决方案 3.1 升级 mysql 版本,并将utf8字符集升级到utf8mb4 3.1.1 直接修改表结构 3.1.2 修改数据库默认配置 3.2 强行过滤掉生僻字符串 3.2.1 shell 过滤 3.2.2 java 中的过滤操作 3.3 避开客户端乱码:二进制存储与查询 4.应用.系统对 utf…

字符集&各种编码&编码解码

要理解乱码问题,首先需要理解几个概念:字符集.编码.编码规则.乱码 1. 字符集: 字符(Character)是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等.字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集.GB2312字符集.BIG5字符集. GB18030字符集.Unicode字符集等.其实字符集简单了来说,就是一张表格,是 id 和字符的对应表. 2. 各种编码: 一种编码格式必须选定一…

cookie的中文乱码问题【URL编码解码】

先搞明白为什么会乱码,为什么要转码: 在tomcat 8 之前,cookie中不能直接存储中文数据.需要将中文数据转码,一般采用URL编码(%E3).在tomcat 8 之后,cookie支持中文数据.特殊字符还是不支持(比如空格),建议使用URL编码存储,URL解码解析. 编码解码前后字符如下表所示: 编码前十进制数字.汉字编码后十六进制数字.英文解码前十六进制数字.英文解码后十进制数字.汉字浏览器与服务器交互过程如图所示: 实例代码如下: servlet中,URL编码解码的的…

何为编码 GBK 和 UTF8编码？GBK，GB2312与区位码有何关系？

何为GBK,何为GB2312,与区位码有何渊源? 区位码是早些年(1980)中国制定的一个编码标准,如果有玩过小霸王学习机的话,应该会记得有个叫做“区位”的输入法(没记错的话是按F4选择).就是打四个数字然后就出来汉字了,什么原理呢.请看下面的区位码表,每一个字符都有对应一个编号.其中前两位为“区”,后两位为“位”,中文汉字的编号区号是从16开始的,位号从1开始.前面的区号有一些符号.数字.字母.注音符号(台).制表符.日文等等. 而GB2312编码就是基于区位码的,用双字节编码表示中文和中文符…