一、编码的由来

因为计算机只能处理010101二进制数据,如果要处理文本,图像,视频等,需要我们把数据转换成01010二进制格式才能被计算机处理

最先出现的是ASCII,用8位一个字节来表示,成为单字节码,一个字节最多能表示256种可能,只能表示英文和符号。无法表示中文、日文、韩文等其他语言256明显不够。所以unicode应运而生,unicode采用32位4个字节来表示,把所有的语言都统一到一套编码里,解决了乱码问题。

但新的问题出现了,如果编写一份英文文档,采用unicode编码的文件比ascii编码的文件多两倍的空间,在存储和传输上显得浪费资源。

utf-8应运而生,UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

二、计算机编码工作方式:

在计算机内存种,统一使用unicode编码,当需要保存到硬盘或者需要传输的时候,采用utf-8编码。

我们查看博客园的源代码,就可以看出,服务器传输给浏览器的编码格式是utf-8.

三、Python3字符编码

在python3当中,str在内存中的编码是unicode。如果需要存储、传输,使用unicode太浪费资源,所以转换成非unicode编码进行存储和传输。

bytes(字节):数据存储是以bytes为单位。字节是指一小组相邻的二进制数码。通常是8位作为一个字节。它是构成信息的一个小单位,并作为一个整体来参加操作,比字符串小,是构成字符串的单位。

字节:一串二进制数码作为一个整体来处理或运算,而这个整体就是字节。在计算机中,通常使用字节来表示存储器的存储容量,

在数据类型中,通常char占1个字节,int4个字节。

在字符编码中:

ASCII编码:一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。

UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。

Unicode编码:一个英文等于四个字节,一个中文(含繁体)等于四个字节。

unicode ->  非unicode编码

Bytes类型和str类型数据转换其实就是编码与解码的过程

utf-8,gbk都是指定编解码时的格式

#str -> gbk
s = 'zhangsan'
b = s.encode("gbk")
s1 = '中国'
b1 = s1.encode("gbk")
print(b)#b'zhangsan'
print(b1)#b'\xd6\xd0\xb9\xfa' gbk是两个字节一个中文 中\xd6\xd0 国\xb9\xfa
# str -> utf-8
s = 'zhangsan'
s1 = '张三' b = s.encode('utf-8')
b1 = s1.encode('utf-8')
print(b) #b'zhangsan'
print(b1) #b'\xe5\xbc\xa0\xe4\xb8\x89' utf8是三个字节一个中文 张\xe5\xbc\xa0 三\xe4\xb8\x89

str 内部是unicode

使用encod转换成非unicode编码,如utf、gbk

08_Python编码与解码的更多相关文章

  1. java编码原理,java编码和解码问题

    java的编码方式原理 java的JVM的缺省编码方式由系统的“本地语言环境”设置确定,和操作系统的类型无关 . 在JAVA源文件-->JAVAC-->Class-->Java--& ...

  2. IO(六)--- 编码和解码

    编码: 把看得懂的字符变成看不懂码值这个过程我们称作为编码. 解码: 把码值查找对应的字符,我们把这个过程称作为解码. 注意: 以后编码与解码一般我们都使用统一的码表.否则非常容易出乱码. 常用码表: ...

  3. RapidJSON 代码剖析(三):Unicode 的编码与解码

    根据 RFC-7159: 8.1 Character Encoding JSON text SHALL be encoded in UTF-8, UTF-16, or UTF-32. The defa ...

  4. BASE64编码和解码(VC源代码) 并 内存加载 CImage 图像

      BASE64可以用来将binary的字节序列数据编码成ASCII字符序列构成的文本.完整的BASE64定义可见 RFC1421和 RFC2045.编码后的数据比原始数据略长,为原来的4/3.在电子 ...

  5. Android 中的编码与解码

    前言:今天遇到一个问题,一个用户在登录的时候,出现登录失败.但是其他用户登录都是正常的,经过调试发现登录失败的用户的密码中有两个特殊字符: * .#  . 特殊符号在提交表单的时候,出现了编码不一样的 ...

  6. base64编码、解码的C语言实现

    转自:http://www.cnblogs.com/yejianfei/archive/2013/04/06/3002838.html base64是一种基于64个可打印字符来表示二进制数据的表示方法 ...

  7. android Java BASE64编码和解码二:图片的编码和解码

    1.准备工作 (1)在项目中集成 Base64 代码,集成方法见第一篇博文:android Java BASE64编码和解码一:基础 (2)添加 ImgHelper 工具类 package com.a ...

  8. android Java BASE64编码和解码一:基础

    今天在做Android项目的时候遇到一个问题,需求是向服务器上传一张图片,要求把图片转化成图片流放在 json字符串里传输. 类似这样的: {"name":"jike&q ...

  9. Web开发须知:URL编码与解码

    通常如果一样东西需要编码,说明这样东西并不适合传输.原因多种多样,如Size过大,包含隐私数据,对于Url来说,之所以要进行编码,是因为Url中有些字符会引起歧义. 例如,Url参数字符串中使用key ...

随机推荐

  1. springcloud干活之服务消费者(feign)

    springcloud系列文章的第三篇 本章将继续讲述springcloud的消费者(feign) Spring Cloud Feign是一套基于Netflix Feign实现的声明式服务调用客户端. ...

  2. Dig out WeChat deleted chat messages on Android Phone

    As we know that WeChat will wipe deleted chat messages. That's why forensic guys could  not dig out ...

  3. 网站开启cdn加速的最简单步骤

    https://jingyan.baidu.com/article/fedf0737ac414f35ac897704.html https://su.baidu.com/console/website ...

  4. 织梦dedecms如何去除版权中的Power by DedeCms

    很多站长在使用dedecms建站过程中,很多人都会调用到dedecms自带的powerby标签,这样在版权信息中就会多出Power by DedeCms这个连接.今天教大家如何去除. 工具/原料 de ...

  5. HTML meta refresh 刷新与跳转(重定向)页面

    下面为各位整理了一些HTML meta refresh 刷新与跳转(重定向)页面的例子吧,后面本站长自己也补充了一些js页面刷新与跳转例子吧. refresh 属性值  --  刷新与跳转(重定向)页 ...

  6. NSDate的常用用法

    1. 创建或初始化可用以下方法 用于创建NSDate实例的类方法有 + (id)date; 返回当前时间 + (id)dateWithTimeIntervalSinceNow:(NSTimeInter ...

  7. git 简单入门

    首先了解一下git的是什么: [百度百科解释]Git是一个开源的分布式版本控制系统,可以有效.高速的处理从很小到非常大的项目版本管理.[2]  Git 是 Linus Torvalds 为了帮助管理 ...

  8. SQLServer分页查询模板

    SELECT TOP 10 * FROM ( SELECT ROW_NUMBER() OVER (ORDER BY id) AS RowNumber,* FROM ERPTelFile ) A WHE ...

  9. win7 mysql 数据库轻松实现数据库定时备份

    本地备份: 第一步: 安装一个mysql. 第二步: 在命令行中配置mysql 打开环境变量将mysql 安装路径配置到path中 第三部: cmd 中输入:mysqldump -uroot -p12 ...

  10. 爬虫_url去重策略

    如何对url去重? 将访问url保存到数据库中,效率低,最简单 将url保存到set中,查询速度快,但当url达到1亿多条时候,占用太多内存空间 将url经过md5等方法哈希后保存到set中 用bit ...