[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术

中文编码GB2312 回忆上次内容

上次回顾了日韩各有编码格式
日本
有假名
五十音
一字节可以勉强放下

有日本汉字
字符数量超过20000+

韩国
有谚文
数量超过500
一个字节放不下

有朝鲜汉字
字符数量超过20000+

添加图片注释，不超过 140 字（可选）

作为汉字源头的中国
究竟应该如何对汉字进行编码呢？

汉字

汉字起源于甲骨文
是世界上唯一还在使用的象形文字
真的很不容易

添加图片注释，不超过 140 字（可选）

写的本意就是画
写意
写生

这就是最初的
象形字

六书

以象形为基础
指事
会意
形声
转注
假借

添加图片注释，不超过 140 字（可选）

字的结构是什么呢？

间架结构

上下
左右
内外

添加图片注释，不超过 140 字（可选）

字型相当复杂
笔画也千姿百态

汉字笔画

笔画也比较复杂

添加图片注释，不超过 140 字（可选）

运笔藏锋都很有讲究

中国大陆地区

中国大陆地区最早使用 GB/T 2312-1980
当时参考了比我们先进的日本JIS 字符集
1980 年指定的国标 (GuoBiao)
1981 年 5 月 1 日开始使用

添加图片注释，不超过 140 字（可选）

GB2312 编码共收录汉字 6763 个
其中一级汉字 3755 个
二级汉字 3008 个

这么多字怎么排呢？

区位

01-09 区为特殊符号
先把ascii的128个字符让出去
然后在留有一些制表的字符
还留了相当多的空余

16-55 区为一级汉字
按拼音排序

56-87 区为二级汉字
按部首／笔画排序

添加图片注释，不超过 140 字（可选）

出了汉字之外，还收录了
拉丁字母
希腊字母
日文平假名及片假名字母
俄语西里尔字母
真的很全了

可是这gb2312
具体是如何编解码的呢？

应用

添加图片注释，不超过 140 字（可选）

如果是0-127以内的ascii字符
标志位为0
1个字节存储

添加图片注释，不超过 140 字（可选）

如果是ascii以外的字符
标志位为1
2个字节存储

编解码

编解码方法一致就可以
解铃还须系铃人

添加图片注释，不超过 140 字（可选）

同时用 gb2312 编解码是没有问题的
这篇制定标准的文档
当时怎么打印出来的呢？
制定内码标准的时候就有字形了吗？

铅字

虽然计算机在当时还没有普及
但是出版行业已经工业化了

添加图片注释，不超过 140 字（可选）

印刷厂使用铅活字进行排版
铸字工
拼版工
还有拣字工

拣字工

印刷家谱从一个大盒子就够了

添加图片注释，不超过 140 字（可选）

字再多些
要用转轮排字盘

添加图片注释，不超过 140 字（可选）

字再多些呢？

捡字室

大印刷厂
字模特别多

添加图片注释，不超过 140 字（可选）

甚至要放
好几面墙
好几张桌子

开端

这也曾被
使用26个字母的西方文明嘲讽

添加图片注释，不超过 140 字（可选）

出书确实不易
捡好了字
排好了版
先打个样
再来校对
再浇铅板
最后印刷

最初的
书籍
杂志
报纸
试卷
都是这样印刷出来的

到了印刷 gb2312-80标准的 1980年
已经启用了新的技术

机械打字机

从轮转排字盘
到谢卫楼发明的中文打字机

添加图片注释，不超过 140 字（可选）

再到舒震东
在前人的研究基础上经过创新
得到的舒式打字机

添加图片注释，不超过 140 字（可选）

中文字符的数量
是一个难关

直到
照相技术的发展

照片排版

使用照片底片进行排版

添加图片注释，不超过 140 字（可选）

也面临检字的工作

添加图片注释，不超过 140 字（可选）

照片排版技术本身也在迭代

激光照排

这次使用激光扫描照片

添加图片注释，不超过 140 字（可选）

每一个小字型都是一个照片
根据汉字内码找到汉字对应的激光照片
然后再把激光照片像活字一样排版
这就是激光照排技术

添加图片注释，不超过 140 字（可选）

用照片排版的方式
制作了这样一个汉字编码的文档

标准定了立刻就能用起来么？

过程

凡事都有个过程
95年定的gbk
98年才逐渐推行开来

但还是有些生僻字没有相应的字型

添加图片注释，不超过 140 字（可选）

内码从无到有
字形码也从无到有

添加图片注释，不超过 140 字（可选）

感谢前辈

感谢王选与陈堃銶前辈的技艺

添加图片注释，不超过 140 字（可选）

激光照排技术可以
印刷中文书籍和报纸了

总结

简体和繁体的汉字
字符数量都超级大
感谢王选和陈堃銶等前辈发明了激光照排技术
中文排版从此使用上了gb2312编码

添加图片注释，不超过 140 字（可选）

纸张之外
显示器是更先进的输出设备

计算机是如何在显示器上显示的呢？
我们下次再说！
蓝桥->https://www.lanqiao.cn/courses/3584
github->https://github.com/overmind1980/oeasy-python-tutorial
gitee->https://gitee.com/overmind1980/oeasypython

[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选的更多相关文章

perl处理含有中文字符的json编码
例子:1. 有php的 json函数生成的中文串 [root@tts177:/tmp]$/opt/php/bin/php -r 'echo json_encode(Array("a" ...
编码占用的字节数 1 byte 8 bit 1 sh 1 bit 中文字符编码 2. 字符与编码在程序中的实现变长编码 Unicode UTF-8 转换在网络上传输保存到磁盘上 bytes
小结: 1.UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等: 2 服务器->网页 utf-8 ...
中文字符 unicode转utf-8函数 python实现
unicode编码范围 00000000-0000007F的字符,用单个字节来表示: 00000080-000007FF的字符用两个字节表示 (中文的编码范围) 00000800-0000FFFF的字 ...
Java实现中文转换成Unicode编码和 Unicode编码转换成中文
想要实现中文字符转换为Unicode编码的话主要用到的是一个这样的包,自己可以去API文档里面查看下的 java.util.Properties; 直接进入主题吧,主要是 package Test01 ...
ajax 传递中文字符参数问题
使用ajax 传递中文字符串时, 服务端会接收不到预期的中文字符. 此时,需要对 js中的中文字符参数进行编码, 到达服务端后, 再为其解码即可. 前端: var url = '....'; ...
在使用NSArray打印的时候如果遇到中文字符那么会打印出来编码。
在使用NSArray打印的时候如果遇到中文字符那么会打印出来编码,如下代码: - (void)viewDidLoad { [super viewDidLoad]; // Do any addition ...
python利用utf-8编码判断中文字符
下面这个小工具包含了判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/u ...
使用 URLDecoder 和 URLEncoder 对中文字符进行编码和解码
原文: https://blog.csdn.net/justloveyou_/article/details/57156039 使用 URLDecoder 和 URLEncoder 对中文字符进行编码 ...
url为什么要编码及php中的中文字符urlencode基本原理
首先了解以下中文字符在使用urlencode的时候运用的基本原理: urlencode()函数原理就是首先把中文字符转换为十六进制,然后在每个字符前面加一个标识符%. 此字符串中除了 -_. 之外的所 ...
Python2.7 中文字符编码 & Pycharm utf-8设置、Unicode与utf-8的区别
Python2.7 中文字符编码 & Pycharm utf-8设置.Unicode与utf-8的区别 zoerywzhou@163.com http://www.cnblogs.com/sw ...

随机推荐

继承与ER图
会员是用户吗? 实体与集合 er图叫实体联系图.什么是实体?是现实中存在的事物个体,用户背后是实际存在的单个人. 对象->实体类->实体的集合 er图描述的是实体间的联系会员是真实存在 ...
.NET下免费开源的PDF类库（PDFSharp）
前言目前.NET 体系下常见的PDF类库有Aspose.QuestPDF.Spire.iTextSharp等,有一说一都挺好用的,我个人特别喜欢QuestPDF它基于 C# Fluent API 提 ...
MyBatis两级缓存机制详解
缓存是提高软硬件系统性能的一种重要手段:硬件层面,现代先进CPU有三级缓存,而MyBatis也提供了缓存机制,通过缓存机制可以大大提高我们查询性能. 一级缓存 Mybatis对缓存提供支持,但是在 ...
Android 13 - Media框架（4）- MediaPlayerService
关注公众号免费阅读全文,进入音视频开发技术分享群! MediaPlayerService是android的多媒体框架的核心服务之一,该服务存储有android平台所支援的编解码器信息,管理所有通过Me ...
逆向WeChat(四)
本篇在博客园地址https://www.cnblogs.com/bbqzsl/p/18209439 mars 先回顾一下,在上两篇我对wechat如何使用chrome::base框架的分析中存有错漏. ...
Docker环境如何配置？使用阿里云OOS一步搞定！
背景介绍系统运维管理OOS及扩展程序系统运维管理OOS(CloudOps Orchestration Service)针对在阿里云ECS实例上部署应用和驱动的复杂性,特别设计了扩展程序,旨在简化用 ...
适用于linux的bilibiliB站直播间弹幕爬虫脚本
适用于linux的bilibiliB站直播间弹幕爬虫脚本,命令行运行之,输入到命令行,部分内容参考自网络,代码底部可见原始代码出处 BUFF:然而,经测试,每次爬只能读取10条弹幕记录,这就使得在(s ...
css 文本换行的问题
今天测试再测试功能的时候无意间发现了这个css的bug,我们可以仔细看第一张图的最后两行,明明还没有到结尾就自动换到最后一行去了,按理说应该是撑满当前行再挤到下一行去,于是我就去看了下css的文本溢出 ...
js布尔类型
 <input type="text" disabled>  & ...
报错解决 :Resolved [org.springframework.web.bind.MissingServletRequestParameterException
报错解决 :Resolved [org.springframework.web.bind.MissingServletRequestParameterException 解决方法:RequestPar ...

[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选

[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选的更多相关文章

随机推荐

热门专题