utf-8 汉字对照表】的更多相关文章

之前从redis中取出一些数据,utf8 16进制编码,想转成字符,没有找到现成的转化工具,先用这个表直接查找对照吧. UTF8编码表大全Code code# Code (coded in UTF-8)D2BB 4E00 E4 B8 80 一B6A1 4E01 E4 B8 81 丁C6DF 4E03 E4 B8 83 七CDF2 4E07 E4 B8 87 万D5C9 4E08 E4 B8 88 丈C8FD 4E09 E4 B8 89 三C9CF 4E0A E4 B8 8A 上CFC2 4E0B…
前言: 最近处理一个特殊的问题,需要用到汉字自动转换拼音的功能. 解决: 在这里找了不少资料,都是有所缺陷,而且也好像很绕.其实是一个很简单的东东.后来还是自己写了一个函数获取.分享出来,给有需要的XD了. ------------- 这是一个比较简单的汉字转拼音的Oracle函数写法. 原理是,先将汉字对应的拼音存入一个表格. 然后对这个表格对应的存在的汉字找出其拼音,然后输出. 这样子做,容易维护,而且也容易扩展.如果万一发现哪个字少了,直接增加表格记录即可. 步骤如下: ----建立汉字拼…
'编',"编",  为什么获取到的字节数组长度不一样 http://www.cnblogs.com/yongdaimi/p/5899328.html Unicode 官网 http://unicode.org/ utf-8 汉字对照表 http://blog.chinaunix.net/uid-25544300-id-3281847.html 提及内码与外码 https://www.zhihu.com/question/27562173 code unit 和 code point h…
创建有主键的表: create table test (pkey varchar(16) primary key, value varchar(10)); 创建有复合(即key由多个字段联合组成)主键的表: create table test (pkey1 varchar(16) , pkey2 varchar(16), primary key (pkey1,pkey2)); SQLite字典表: select * from sqlite_master; 阅读(432) | 评论(0) | 转发…
假设现在有个form表单,当页面中提交一个包含中文的请求时,在服务端有可能出现中文乱码问题. <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>Insert title here</title> </head> <body> <form action="registerServlet" metho…
GB2312和GBK每一个汉字由2个字节组成,这2个字节的ASCII码大小分别是:gb2312: high8 = 0xa1-->0xfe (161 - 254)low8 = 0xa1-->0xfe  (161 - 254) gbk: high8 = 0x80-->0xfe (128 - 254)low8 = 0x40-->0xfe (64 - 254) GB2312和GBK的区别:http://zhidao.baidu.com/question/40269499 汉字ASCII对照…
国标二级字库汉字GB内码un码三合一对照表 字王2016版 汉字内码表,是制作字库的基础,简单.便利的版本很少,根据实战经验,特此制作这个三合一版本的汉字.GB内码.Unicode码对照表: l 提供GB内码.Unicode内码两种不同格式的版本. l 格式如下:汉字,GB内码.Unicode-16内码:中间用英文逗号符分隔, l 每行最后的逗号符,并非多于,便于编程.批命令需要,特别是python的list列表导入. l 国标一二级字库,源自1980年颁布的<信息交换用汉字编码字符集--基本集…
http://www.0xaa55.com/thread-398-1-1.html看到了0xaa55的这个帖子,想起了2年前我在51cto发的一个帖子http://down.51cto.com/data/293635 [C] 纯文本查看 复制代码 01 #include <stdio.h>  02 void main( void ) 03 { 04     FILE *stream; 05     int i,j; 06     stream=fopen("ascii.txt&quo…
目录结构: contents structure [+] 什么是USC UCS的编码方式 Unicode的来源 为什么需要Unicode Unicode的方式 Unicode和UTF UTF和Unicode的关系 UTF-8的编码方式 UTF-16的编码方式 什么是BOM 参考文章 1,什么是USC USC是Universal Character Set的简称,也就是“通用字符集”,由ISO(International Organization for Standardization,国际标准化…
UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就O…
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端.打印机遇上约定…
1.在notepad里,(中文系统下) 按住Alt 然后按52946最后放开Alt 按住Alt 然后按45230最后放开Alt 按住Alt 然后按50403最后放开Alt 你会看到"我爱你"三个字. 2.原理:Alt+[Unicode编码]对应的十进制数字即可打出该[Unicode编码] 比如52946是"我"在Unicode下的十进制编码,45230是"爱"在Unicode下的十进制编码,50403是"你"在Unicode下…
UNICODE是万能编码,包含了所有符号的编码,它规定了所有符号在计算机底层的二进制的表示顺序.有关Unicode为什么会出现就不叙述了,Unicode是针对所有计算机的使用者定义一套统一的编码规范,这样计算机使用者就避免了编码转换的问题.Unicode定义了所有符号的二进制形式,也就是符号如何在计算机内部存储的,而且每个符号规定都必须使用两个字节来表示,也就是用16位二进制去代表一个符号,这样就导致了一个问题,英文编码的空间浪费,因为在ANSI中的符号都是一个字节来表示的,而使用了UNICOD…
转载: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的"另存为",可以在GBK.Unicode.Unicode big endian和UTF-8这几种编码方式间相互转换.同样是txt文件,Windows是怎样识别编码方式的呢? 我很早前就发现Unicode.Unicode…
vim settings set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936,latin1set termencoding=utf-8set encoding=utf-8 GBK编码:汉字占两个字节 UTF-8编码: 通常汉字占三个字节, 扩展B区以后的汉字占四个字节 UTF-16编码: 通常汉字占两个字节,CJKV扩展B区.扩展C区.扩展D区中的汉字占四个字节(一般字符的Unicode范围是U+0000至U+FFFF,而这些扩展部分…
转换                                                                                             获取一个汉字的拼音首字母. GB码两个字节分别减去160,转换成10进制码组合就可以得到区位码例如汉字“你”的GB码是0xC4/0xE3,分别减去0xA0(160)就是0x24/0x430x24转成10进制就是36,0x43是67,那么它的区位码就是3667,在对照表中读音为‘n’. XML布局       …
在编程当中经常出现乱码的问题,而由此一般会引发很多惨剧,如读文件不成功.用户名显示乱码等,所以端午节抽了一小点时间好好看了一下编码问题,以备遗忘. 首先是中文编码,除了台湾和香港常用的BIG5,国内大概都用的是gb2312,这个可以从各大门户的首页源码中找到一些线索.还有一种叫gbk,这是微软对gb2312的拓展.主要由于gb2312只能表示6763个简体汉字,682个符号,具体可见字符区别. 然后是编程当中常见的utf编码,相信很多程序员都晕.比如我们最近在做android的NDK编程时,就发…
环境: mysql:mysql-5.1.65 centos:centos 6.5 编译命令: gcc -o chinesetopinyin chinesetopinyin.c -L/usr/lib/mysql -lmysqlclient -I/usr/include/mysql 源代码: #include <mysql/mysql.h> #include <stdio.h> #include <string.h> void ChineseToPinyin(char *p…
jsp中pageEncoding.charset=UTF -8" 在JSP/Servlet  中主要有以下几个地方可以设置编码,pageEncoding="UTF-8".contentType="text/html;charset=UTF  -8".request.setCharacterEncoding("UTF-8")和response.setCharacterEncoding  ("UTF-8"),其中前两个只…
http://blog.csdn.net/qinysong/article/details/1179480 java 乱码详解__jsp中pageEncoding.charset=UTF -8".(request/response).setCharacterEncoding("UTF-8") 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考. 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程…
package com.tool.hz2py; import android.os.Bundle; import android.app.Activity; import android.view.Menu; import android.widget.TextView; public class MainActivity extends Activity { protected Hz2py hz2py; @Override protected void onCreate(Bundle save…
oracle汉字转拼音(获得全拼/拼音首字母/拼音截取等)   效果如下: Oracle 字符集 GBK 没有问题 , UTF -8 需要修改一下   Sql代码   --oracle汉字转拼音 PACKAGE    --1.获得全拼  SELECT GETHZPY.GETHZFULLPY('汉字') FROM DUAL;   结果 : HanZi    --2.拼音首字母   SELECT GETHZPY.GETHZPYCAP('汉字') FROM DUAL;   结果 : HZ    --3…
Unicode(UTF&UCS)深度历险 计算机网络诞生后,大家慢慢地发现一个问题:一个字节放不下一个字符了!因为需要交流,本地化的文字需要能够被支持. 最初的字符集使用7bit来存储字符,因为那时只需要存下一些英文字母和符号.后来虽然扩展到使用8bit来存储一个字符了(这种方式被国际标准化组织收录,成为ISO8859-1.在字符集发展历程中国际标准化组织一直发挥着重要作用.),也还是无法存储诸如中文的字符. 混乱的年代到来了.为了存储下自己的文字,各个国家和地区(多为非拉丁语系的民族,因为这些…
说明:本文转载于新浪博客,旨在方便知识总结.原文地址:http://blog.sina.com.cn/s/blog_673c81990100t1lc.html 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687".…
在上章-学习了数码相框的框架分析(1)了 本章主要内容如下: 1)熟悉ASCII/GB2312/Unicode编码 2)写应用程序,使LCD显示汉字和字符 大家都知道,数据传输的是二进制,而字符和汉字却有各种各样的,所以便通过二进制将字符和汉字编成一个字符集(charset). 1.而字符集(charset)又经历3个阶段 ASCII码 最早的计算机采用ASCII码,一个字节便包括了英文数字这些符号 GB2312编码 由于不支持中文,那时候的常用汉字就有6763个,所以中国人发明了GB2312(…
有时候,可能会有一些类似这样的需求: 对于这样的效果,我们可以有类似这样的解决方案: package bys.utils; import java.io.UnsupportedEncodingException; /** * Created by toutou on 2014/2/21 */ public class ChineseCharacterHelper { static final int GB_SP_DIFF = 160; // 存放国标一级汉字不同读音的起始区位码 static f…
由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重.后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有针对Android平台进行适配,于是对代码进行了一些修改,终于可以在Android手机上运行.修改后的工程已上传至github,如有需要,可以clone HanLP-Android代码后,导出jar文件使用. ##使用说…
    oracle汉字转拼音(获得全拼/拼音首字母/拼音截取等)   效果如下: Oracle 字符集 GBK 没有问题 , UTF -8 需要修改一下   Sql代码   --oracle汉字转拼音 PACKAGE    --1.获得全拼  www.2cto.com   SELECT GETHZPY.GETHZFULLPY('汉字') FROM DUAL;   结果 : HanZi    --2.拼音首字母   SELECT GETHZPY.GETHZPYCAP('汉字') FROM DUA…
(一)在UTF-8中,一个汉字为什么需要三个字节? UNICODE是万能编码,包含了所有符号的编码,它规定了所有符号在计算机底层的二进制的表示顺序.有关Unicode为什么会出现就不叙述了,Unicode是针对所有计算机的使用者定义一套统一的编码规范,这样计算机使用者就避免了编码转换的问题.Unicode定义了所有符号的二进制形式,也就是符号如何在计算机内部存储的,而且每个符号规定都必须使用两个字节来表示,也就是用16位二进制去代表一个符号,这样就导致了一个问题,英文编码的空间浪费,因为在ANS…
oracle汉字转拼音(获得全拼/拼音首字母/拼音截取等) 效果如下: Oracle 字符集 GBK 没有问题 , UTF -8 需要修改一下 Sql代码 --oracle汉字转拼音 PACKAGE --1.获得全拼  www.2cto.com SELECT GETHZPY.GETHZFULLPY('汉字') FROM DUAL; 结果 : HanZi --2.拼音首字母 SELECT GETHZPY.GETHZPYCAP('汉字') FROM DUAL; 结果 : HZ --3.拼音截取等 S…