[oeasy]python0129_unicode_中文字符序号_十三道大辙_字符编码解码_eval_火星文
- 字符集
- 从博多码
- 到 ascii
- 再到 iso-8859 系列
- 各自割据
- 如何把世界上各种字符统进行编码
- unicode顺势而生不断进化
- 不过字符总量超过了65536
- 每个汉字都有位置
- 所有汉字里面第一个汉字是什么呢?
- 第一个字就是一
- 一切本是混沌
- 河出图洛出书
- 一划开天
- 分出阴阳
- 一生二
- 太极生两仪
- unicode把一放在中文第一个
- 感受先人创建文明之源
- 分在几个 blocks 里面
- 最常用的在0x4E00-0x9FBF
- F、B都是16进制的数字就像1、2、3一样
- 这个范围就是中日韩(CJK)字符的范围
- 也属于 2个字节 以内
- 字符数量也很多
- 不过由于汉字数量太多
- 原来给的空间不够用了
- 又给CJK分配了几个扩展空间
- Extension
- 我们 对比一下
- 原来 \x表示法 和 \u表示法
- 原来ascii字符a可以用\x61表示
- \x61 对应十六进制的(61)十六进制
- 占用一个字节
- 使用\x进行转义
- 现在unicode字符一可以用\u4e00表示
- \u4e00 对应十六进制的(4e00)十六进制
- 占用两个字节
- 使用\u进行转义
- ascii 字符也能用 \u 的方式进行转义
- \u必须得4位16进制数
- 不过这样有点浪费空间和带宽
- 序号、字节状态和字符是什么关系呢?
- 序号、字节状态和字符
- 这三个东西也构成一个闭环
- 就像ascii一样
- 我们现在再看一下ord和chr的帮助
- ord将字符的unicode编码转化为单字字符串
- chr 将[0,0x10ffff] 转化为unicode 单字字符串
- 序号是unicode的序号
- 在[0,127]范围内
- ascii 和 unicode 重合
- unicode 兼容 ascii
- unicode 形成了主流 之后
- 会吸取周围的小支流
- 类似的还有办公文档的标准
- dos时代之后
- win3.1的年代
- 微软推出了字体处理软件
- 金山在wps的基础上推出了盘古系统
- win95之后
- 图形用户界面都基于微软的api进行开发
- 微软自身也有office系列
- 客观上
- 微软也就制定了办公软件的标准
- 微软office系列
- 形成了 主流 之后
- wps、中文之星只能按照去兼容它的格式
- 失去了定义标准的可能
- 规则一旦形成
- 就会对后来的事物产生影响
- 其实汉字
- 也有自己的一套归类规则
- 可以按照发音来归类
- 甚至可以生成语音...
- 还可以进一步归类吗?
- 押韵助手
- 可以用来找到押韵词汇
- 字典用的是拼音排序
- 按照声母的顺序
- 大辙按的是韵母
- 这样就可以更方便找相同韵母的汉字了
大辙
|
对应十八韵
|
---|---|
一发花
|
十八韵的一麻
|
二梭波
|
十八韵的二波三歌
|
三乜斜
|
十八韵的四皆
|
四衣欺
|
十八韵的五支、六儿、七齐
|
五灰堆
|
十八韵的八微
|
六怀来
|
十八韵的九开
|
七姑苏
|
十八韵的十姑
|
八衣欺
|
十八韵的十一鱼
|
九由求
|
十八韵的十二侯
|
十遥条
|
十八韵的十三豪
|
十一言前
|
十八韵的十四寒
|
十二人臣
|
十八韵的十五痕
|
十三汪洋
|
十八韵的十六唐
|
十四中东
|
十八韵的十七庚和十八东
|
- 四、八其实可以合成一道大辙
- 如果要双押
- 就得找词组韵母一致的
- 其实都可以把所有的词归类
- 然后制作一个押韵神器
- 很多各种各样的发音
- 也被所谓的韵
- 进行分类
- 词是由字组成的
- 词是如何编码进入计算机的呢?
- 两个汉字的unicode编码
- 占用四个字节
- 已知汉字,得到 unicode 值,叫做编码
- 过程为 encode
- 已知 unicode 值,得到汉字,叫做解码
- 过程为 decode
- 把 str 字符串 encode 编码 为 bytes 字节序列
- 把 bytes 字节序列 decode 解码 为 str 字符串
- 编码和解码是互为逆运算的
- 绕了一圈又回来了
- ascii 得到字符串的unicode编码状态
- eval 得到编码的字符串状态
- 这两个也是逆运算
- 好像也可以然绕一个圈
- eval应该如何理解呢?
- help(eval)
- eval
- 意思是evaluate衡量
- 是一个内置的函数
- 在__builtins__这个module里面
- 根据全局变量和局部变量的值进行衡量
- 这里衡量的是
- 按unicode形式的编码好的字符串
- 实际编码的时候是按照什么排序的呢?
- 禾木字旁的放到一起
- 按照偏旁的次序排列
- 其实偏门的汉字很多的
- 偏门的汉字
- 形成了 小众火星文
- 在火星文转化器中
- 如果爱,请深爱
- 洳淉嬡,埥堔嬡。
- 团长,我从此就是杀马特的人了,爱你呦
- 團萇,莪苁泚僦湜摋骉特哋亾孒,嬡沵呦。
- 爱我不是你的错
- 嬡莪芣湜沵哋措
- 你是我的翅膀
- ༺༒妳ィ是俄棏翄艕ོ
- today is my birthday
- 特嘚孓麥波斯嘚
- 这真的有点亚文化
- 用这个问人工智能
- 也会晕吧?!
- 其实火星文就是把常用汉字序号
- 和不常用的汉字的序号
- 对应了起来
- 文字转化就是找到序号的映射
- 也是一种 加密方法
- 你用这语料进行深度学习
- 学出来也是一头雾水
- 中文字符可以有各种分类方法
- 声母
- 拼音检字法
- 韵母
- 合辙押韵的分类
- 偏旁部首
- 实际上unicode的排序方法
- 我们以前勇闯地下城时候获得了一把屠龙宝刀
- 给他镶上了️宝石
- 这宝石应该如何理解?
- 我们下次再说!
[oeasy]python0129_unicode_中文字符序号_十三道大辙_字符编码解码_eval_火星文的更多相关文章
- C#中的流_字节_字符_字符串之间的相互转换
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.I ...
- 字符串化#、拼接字符##和可变参数宏(...和_ _VA_ARGS_ _)
宏定义的使用与注意事项 ##是一个连接符号,用于把参数连在一起 #是“字符串化”的意思.出现在宏定义中的#是把跟在后面的参数转换成一个字符串#define paster( n ) printf( &q ...
- [19/03/28-星期四] IO技术_基本概念&字符编码与解码
一.概念 输入(Input) 指的是:可以让程序从外部系统获得数据(核心含义是“读”,读取外部数据) 常见的应用: Ø 读取硬盘上的文件内容到程序.例如:播放器打开一个视频文件.word打开一个do ...
- 字节与字符_字节流与字符流_ASCII与Unicode_GB2312_GBK_GB18030_BIG-5
字节(Byte):通常将可表示经常使用英文字符8位二进制称为一字节. 一个英文字母(不分大写和小写)占一个字节的空间,一个中文汉字占两个字节的空间. 符号:英文标点2占一个字节,中文标点占两个字节. ...
- ECMA Script 6_字符串_扩展_字符 是4字节还是2字节?_模板字符串
ES6 字符串扩展 ES6 加强了对 Unicode 的支持,并且扩展了字符串对象 字符 的 Unicode 表示法 允许采用 \uxxxx 形式表示一个字符, 其中 xxxx 表示字符的 Unico ...
- js分析 天_眼_查 字体文件
0. 参考 js分析 猫_眼_电_影 字体文件 @font-face 1. 分析 1.1 定位目标元素 1.2 查看网页源代码 1.3 requests 请求提取得到大量错误信息 对比猫_眼_电_影抓 ...
- Oracle学习总结_day03_day04_条件查询_排序_函数_子查询
本文为博主辛苦总结,希望自己以后返回来看的时候理解更深刻,也希望可以起到帮助初学者的作用. 转载请注明 出自 : luogg的博客园 谢谢配合! day03_条件查询_排序_函数 清空回收站: PUR ...
- C Primer Plus_第6章_循环_编程练习
1.题略 #include int main(void) { int i; char ch[26]; for (i = 97; i <= (97+25); i++) { ch[i-97] = i ...
- 转:HIBERNATE一些_方法_@注解_代码示例---写的非常好
HIBERNATE一些_方法_@注解_代码示例操作数据库7步骤 : 1 创建一个SessionFactory对象 2 创建Session对象 3 开启事务Transaction : hibernate ...
- 宏定义中的##操作符和... and _ _VA_ARGS_ _
1.Preprocessor Glue: The ## Operator 预处理连接符:##操作符 Like the # operator, the ## operator can be used i ...
随机推荐
- Avalonia中的线性渐变画刷LinearGradientBrush
在WPF中使用Shape实现复杂线条动画后,尝试在Avalonia中也实现同样效果.尽管官方提供了从WPF到Avalonia的快速入门文档,但由于第一次使用Avalonia,体验过程中并不是很顺利,主 ...
- Flask源码阅读
上下文篇 整个Flask生命周期中都依赖LocalStack()栈?.而LocalStack()分为请求上下文_request_ctx_stack和应用上下文_app_ctx_stack. _requ ...
- 用Vue全家桶纯手工搓了一个开源版「抖音」
前言 2018年刚入行前端时,公司使用的还是Angular.Angular什么都好,就是写代码时的体验老糟心了,改一个地方,按下保存之后,要等好几秒刷新后才能看到效果,Webstorm无比好用的自动保 ...
- GIT文件上传演示
Be Written By Handat.憨大头 注:以下内容默认你已经做好了git工具的用户账户配置. (1)创建Gitee线上代码仓库,HTTPS协议地址就是仓库地址,如例https://gite ...
- .Net Core 部署IIS
我相信很多人看了其他的贴子,都没有成功部署,因为里面有很多暗坑.接下来博主就一步一步给大家讲明白,带领大家部署 先基本的发布 操作:右击web项目的<发布>按钮.选文件 配置发布属性 ...
- Java方法传参中"..."的作用
# Java方法传参中 `...` 类型名 介绍 - <font color = 'blue'>**类型 ... 类型名**</font> 表示可变长度的参数,本质是**数组* ...
- ETL工具-nifi干货系列 第十一讲 处理器UpdateAttribute使用教程
1.在这里我们重温下nifi里面一个重要的概念FlowFile,如下图所示: FlowFile:FlowFile代表NiFi中的单个数据.nifi数据流中流动的就是flowfile,每个nifi处理器 ...
- java.io.File类中分隔符区别
1.separator File.separator是系统默认的文件分隔符号,在UNIX系统上,这个字段的值是'/';在Microsoft Windows系统上,它是''. 类型:String 2.s ...
- json null (空值)不序列化
json null (空值)不序列化 JsonSerializerSettings jsetting = new JsonSerializerSettings(); jsetting.DefaultV ...
- OAuth + Security - 错误收集
Could not decode JSON for additional information: BaseClientDetails 完整的错误输出如下: 2019-12-03 22:18:37.2 ...