1.列表类型(用join方法) myUlist = [u'AB', u'AB', u'AB', u'AB'] print myUlist print ", ".join(myUlist) 2.字典类型 [{u'sum(id)': Decimal('28'), u'month': 3}, {u'sum(id)': Decimal('1'), u'month': 12}] from unicode import ToUnicode li = [] for item in ret: prin…
add by zhj: 其实一般情况下,不会遇到变量c这种编码的,往往是哪些出错了,才会出现这种情况.所以遇到这种情况,要先 查看代码,避免这种情况的出现 原文:https://mozillazg.com/2013/12/python-raw-unicode.html 见下面的代码,我们知道,对于unicode字符串,是像b那样的格式,即u'\u6211\u7231Python',而c中的包含的其实是utf-8编码的, a就是utf-8编码的.那怎么去掉c前面的u呢?Python提供了方法uni…
判断修改的中的值,用前面的,否则容易获得空值:this.dataGridView1.Rows[i].Cells[0].EditedFormattedValue;  VS     bool b = (bool)this.dataGridView1.Rows[i].Cells[0].Value;…
Python中出现 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated \UXXXXXXXX escape 1 问题 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated \UXXXXXXXX escape 2…
1.while循环 现在让我们来看看python中的while循环  格式为 while 条件 循环体 (break) (continue) 中断循环的关键字有break和continue, break: 直接中断跳出循环. continue:终止当前本次循环,继续执行下一次循环,不会彻底中断循环 2.格式化输出 占位符有%s,%d name = input("请输入你的名字") sex = input("请输入你的性别") age = input("请输…
在计算机中,经常遇到编码问题,本节主要梳理下ascii,unicode,utf8,gbk 这几种编码之间的关系. ASCII 计算机中,所有数据都以0和1来表示.在一开始的时候,要表示的内容比较少,人们使用了ascii编码的方式来编码. ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 -…
了解编码之前首先说下这几个词的概率: 位.字节.字符.字符串 1.位(bit)也称为比特 这个其实很简单,因为计算机都是二进制存储数据,也就是0和1,一个0或者1就表示一位.这是计算机存储的最小单位. 2.字节(bytes) 一个字节由8位组成,00000000到11111111 如果第一位不做符号位,那么一个字节能表示的整数范围:0-255.我们平常的网络传出信息,都是转换为字节进行传输的. 3.字符 比如 'a'或者'b'这就表示一个字符a 一个字符b. 4.字符串 至少两个字符就组成了字符…
一   is   与   ==   区别 ==    比较            比较的是值 例如: a = 'alex' b = 'alex' print(a == b) #True a = 10 b = 10 print(a == b) #True a = [1,2,3] b = [1,2,3] print(a == b) #True a = {1:2,':'b'} b = {1:2,':'b'} print(a == b) #True 总结:== 可以比较任何字类型, 字符串, 列表, 数…
1.charAt():把字符串分成每一个字符,从左往右提取指定位置的字符 var str = '天气'; alert( str.charAt(1) );            //气 2.charCodeAt ():在第一个的基础上,返回的是字符的unicode编码 var str = '天气'; alert( str.charCodeAt(0) );        //22825 3.String.fromCharCode():通过编码值在unicode编码库中查找出对应的字符. alert(…
正确处理文本,特别是正确处理Unicode.是个老生常谈的问题,有时甚至会难倒经验丰富的开发者.并不是因为这个问题很难,而是因为对软件中的文本,开发者没有正确理解一些关键概念及其表示方法.在StackOverflow上搜索关于UnicodeDecodeError相关的问题,可以看到很多人都有这样的误解.这些错误的概念可以追溯到Unicode出现之前.那时许多现今的开发者还没入职,也包括我自己.如果这些错误的概念没有散布开来,其实不是个问题.现在很多人都有这些错误概念,部分原因是因为有些非常流行的…
编码方法encoding() 描述 encode() 方法以指定的编码格式编码字符串,默认编码为 'utf-8'.将字符串由string类型变成bytes类型. 对应的解码方法:bytes decode()  方法. 语法 str.encode([encoding='utf-8'][,errors='strict']) str是表示需要编码的字符串,并且是个string类型. encoding -- 可选参数,要使用的编码方案,默认编码为 'utf-8'. errors -- 可选参数,设置不同…
一. 引言 在<第11.16节 Python正则元字符"()"(小括号)与组(group)匹配模式>中老猿介绍了组匹配模式的命名组功能及引用组功能,这两者都是组模式的扩展功能,其实在re模块中组模式的扩展功能非常多,所有组模式的扩展功能,都是在组定义的左括号后面跟问号"?"来表示,具体扩展功能是要看问号后面的字符来确认,如"P"表示组名相关扩展. 下面介绍组匹配模式扩展功能的前视断言和前视取反,本节继本章后面介绍的扩展功能中组的括号内…
http的数据需要2种编码解码. 1. url中的特殊字符转换, 比如",', :,//等 python3中通过urllib.parse.quote(..)和urllib.parse.unquote(..)来编码解码. 如: import urllib.parse url = "http://blog.csdn.net/muzizongheng" en = urllib.parse.quote(url) print(en) de = urllib.parse.unquote(…
#定义编码方式,与物理文件. code='utf-8'file='D:/utf8.txt' #把编码后的字符写入文件. hello_out =u'hello world'bytes_out =hello_out.encode(code) f = open(file,'w')f.write(bytes_out)f.close() #读取出字节码后再解码 f = open(file,'r')bytes_in = f.read()f.close() hello_in = bytes_in.decode…
<ul class="list"> <li> </li> <li> </li> </ul> .list li{list-style-type:none}…
ascii和unicode是字符集,utf-8是编码集 字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point) 编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程) ascii每个字符占用一个字节(8位),其中第一位恒为0,因此ascii一共可以表示128个字符 unicode每个字符占用两个字节(16位),可以用来表示汉字 链接:https://www.zhihu.com/question/23374078/answer…
编码问题,一直是使用python2时的一块心病.几乎所有的控制台输入输出.IO操作和HTTP操作都会涉及如下的编码问题: UnicodeDecodeError:‘ascii’codec can’t decodebyte0xc4inposition10:ordinalnotinrange(128) 这究竟是是个什么东西?!有时稀里糊涂地用一坨encode(),decode()之类的函数让程序能跑对了,可是下次遇到非ASCII编码时又悲剧了. 那么Python 2.x中的字符串究竟是个什么呢? 基本…
计算机早期是只支持ASCII码的,经过long long的发展,出现了这些支持世界上各种语言字符的编码:unicode, utf-8, gb2312. 对于unicode, utf-8, gb2312,虽然都能表示各种字符,但是各种字符在各种编码方式下的码是不一样的.可以把utf-8, gb2312理解为unicode这种编码思想(支持各种字符)的各种实现. python中的函数unicode(str, "UTF-8"),可以返回"UTF-8"编码的字符串str的u…
  编码与解码 首先,明确一点,计算机中存储的信息都是二进制的   编码/解码本质上是一种映射(对应关系),比如‘a’用ascii编码则是65,计算机中存储的就是00110101,但是显示的时候不能显示00110101,还是要显示'a',但计算机怎么知道00110101是'a'呢,这就需要解码,当选择用ascii解码时,当计算机读到00110101时就到对应的ascii表里一查发现是'a',就显示为'a'   编码:真实字符与二进制串的对应关系,真实字符→二进制串 解码:二进制串与真实字符的对应…
一.bytes类型 bytes类型是指一堆字节的集合,在python中以b开头的字符串都是bytes类型.例如: >>> a = "中国" >>> a.encode("utf-8") b'\xe4\xb8\xad\xe5\x9b\xbd' py3中字符串都是Unicode编码,显示正常字符,其余编码的数据都以bytes类型显示. bytes类型的作用: 计算机只能存储2进制, 我们的字符.图片.视频.音乐等想存到硬盘上,也必须以正…
在平常工作中使用到char和byte的场景不多,但是如果项目中使用到IO流操作时,则必定会涉及到这两个类型,下面让我们一起来回顾一下这两个类型吧. char和byte的对比 byte byte 字节,数据存储容量1byte,byte作为基本数据类型表示的也是一个存储范围上的概念,有别于int.long等专门存数字的类型,这种类型的大小就是1byte,而int是4byte. 存数字的话就是1byte=8位,2^8=256 即-128-127.字符的话包括字母和汉字,一个字母是1byte,一个汉字2…
Python中文本文件读写的编码问题 编码(encode): 我们输入的任何字符想要以文件(如.txt)的形式保存在计算机的硬盘上, 必须先经按照一定的规则编成计算机认识的二进制后,才能存在电脑硬盘上.这种规则有GBK,utf-8等. 解码(decode): 同理,计算机硬盘上文件,想要正确显示在电脑屏幕上,也必须首先按照一定的规则从计算机硬盘上通过解压,把二进制数据解码成字符,我们才能在电脑屏幕上看到.并且,如果,解码的方式不对,就会出现乱码.如,文件是以GBK的形式编码的,那解码也必须使用G…
Base64 可以干些啥? Base64编码的作用: 由于某些系统中只能使用ASCII字符.Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法. 图片(and种子)base64编码传输 一种常用的内容快速加密方法(不安全,防君子不防小人) 为什么要使用 Base64 编码? 在网页图片传输中,一般在处理极小.极简的一些图片的时候可以使用到base64编码将图片直接写入css文件展示到网站上. 快速加密,常用与邮件内容传输,网站简单内容加密,跟MD5加密算法的区别在于这种算…
什么是Base64编码 BASE64是用于传输8Bit字节的编码方式之一,是一种基于64个可打印字符来表示二进制数据的方法. 如下是转换表:The Base64 Alphabet Base64编码可以解决什么问题(或用来做什么) base64编码是从二进制到字符的过程,可用于在HTTP环境下传递较长的标识信息 规则 编码的规则: ①.把3个字节变成4个字节. ②.每76个字符加一个换行符. ③.最后的结束符也要处理. 它的优点和缺点 优点:速度快,采用ascii字符,肉眼不可理解 缺点:编码比较…
字符串编码常用类型:utf-8,gb2312,cp936,gbk等. python中,我们使用decode()和encode()来进行解码和编码 在python中,使用unicode类型作为编码的基础类型.即 decode              encode str ---------> unicode --------->str u = u'中文' #显示指定unicode类型对象u str = u.encode('gb2312') #以gb2312编码对unicode对像进行编码str…
 一.文件: 打开文件的模式有: r,只读模式(默认). w,只写模式. 不可读,不存在则创建:存在则删除内容 a,追加模式. 可读,不存在则创建:存在则只追加内容 "+"表示可以同时读写某个文件: r+,可读写文件.可读:可写:可追加 w+,写读 a+,同a "U"表示在读取时,可以将 \r \n \r\n自动转换成\n(与r或r+ 模式同使用): rU r+U "b"表示处理二进制文件(如:FTP发送上传ISO镜像文件,linux可忽略,wi…
python中处理中文常要用到unicode,因为较容易遇到字符串编码的问题,我一般都是将字符串统一转成unicode去处理 python中定义一个unicode字符串,可以在字符串前面加u: str=u"hello world" python中定义不转义的字符串,可以在字符串前面加r: path=r"c:\programfile\test" 解码将其他字符串格式转为unicode: ret=str.decode("gb2312") ret=st…
实例cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100 统计文件中出现次数最多的前10个单词 使用linux命令或者shell实现:文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词. cat words.txt | sort | uniq -c | sort -k1,1nr | head -10 主要考察对sort.uniq命令…
之前一直有使用python 正则表达式来做中文字符串或者中英文数字混合的字符串的匹配,发现有不少情况下会匹配失灵或者结果混乱,并且在不同操作系统上匹配结果也不一致,查了很久都不知道是什么原因.今天终于彻底弄懂了,原来还是python中对中文的编码问题造成的. 解决办法: step1 在设置默认编码为UTF8之后,将正则表达式和待匹配字符串都decode("utf8")统一成 unicode再进行匹配: step2 正则表达式前面一定要加 r : 示例代码: kw_regexp = r'…
参考原文 Python廖雪峰 为什么要进行编码? 计算机只能处理二进制数字(0100111),要处理文本,就必须先把文本转为数字才能处理,这个过程就叫编码. 字符的编码 ASCII编码 由于计算机是美国人发明的,最早只有127个字符被编码到计算机里,包括大小写英文字母.数组和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122. 但是用来处理中文显然一个字节是不够的,至少需要2个字节,而且不能和ASCII原有的编码冲突.所以中国制定了GB2312编码来将…