小学生都能学会的python(编码 and 字符串) 一,编码 最早的计算机编码是ASCII. 有英文+数字+特殊字符 8bit => 1byte 没有中文, 后面的编码必须兼容ASCII          GBK 把中国的文字进行编码. 对ASCII扩充. 16bit  => 2byte 主要包含了中文, 日文, 韩文, 英文(兼容ASCII)          UNICODE 32bit 兼容各个国家的编码.万国码. 浪费空间  32bit => 4byte          UTF…
小学生都能学会的python(文件操作) 1. open("文件路径", mode="模式", encoding="编码") 文件的路径: 1. 绝对路径: 1. 从磁盘根目录寻找 2. 网络上的路径 2. 相对路径 相对于当前你这个程序所在的文件夹.(用的最多的) 模式 r 读. 只读模式 w 写 只能写 f = open("d:/sylar.txt", mode="w", encoding="…
小学生都能学会的python(小数据池) 1. 小数据池. 目的:缓存我们字符串,整数,布尔值.在使用的时候不需要创建过多的对象 缓存:int, str, bool. int: 缓存范围 -5~256 str: 1. 长度小于等于1,直接缓存 2. 长度大于1. 字符串中如果只有数字, 字母, 下划线. 就会缓存 3. 乘以1. 同上, 乘以大于1的数.仅包含数字,字母下划线.最终长度小于20会缓存 4. 使用sys模块中的intern()缓存字符串 代码块的关系:如果在同一个代码块中.默认的整…
---恢复内容开始--- 小学生都能学会的python(运算符和编码) 一.格式化输出 #占位:"%s"占位,占得是字符串,"%d"占位,占的是数字. # 让用户输入 名字, 年龄, 爱好 .格式化输出成 我叫xxx, 我喜欢干xxxx. 我今年xxx大了 name = "alex" age = 18 hobby = "佩奇" print("我叫%s, 我喜欢干%s, 我今年%d岁了" % (name, h…
小学生都能学会的python(闭包和迭代器) 1. 函数名第一类对象 函数名其实就是变量名 1). 可以像变量一样互相赋值. 2). 可以作为函数的参数,进行传递 3). 可以作为返回值返回 4). 可以作为集合的元素进行存储 # def chi(): # print("吃月饼") # print(chi) # fn = chi # 函数名可以进行赋值 # a = 10 # b = a # chi() # fn() # 函数名可以像变量名一样进行使用 # def func1(): #…
小学生都能学会的python(函数的进阶) 1. 动态传参 形参: 1. 位置参数 2. 默认值参数 3. 动态传参 *args 动态接收位置参数 **kwargs 动态接收关键字参数 def func(*args, **kwargs): 在形参上用*,** 表示聚合. 实参表示打散 顺序: 位置 *args 默认值 **kwargs # def chi(*food): # * 表示的是不定参数. 可以传递任意个信息 参数名是food, 接受到的是元组 # print("我要吃", f…
小学生都能学会的python(函数) 神马是函数 函数: 对功能或者动作的封装 函数的定义 def 函数名(形参列表): 函数体(return) ret = 函数名(实参列表) 函数的返回值 return,只要执行到return 函数的本次调用就会被停止 1.如果函数不写return, 没有返回值. 接收到的是None 2.写了return. return后面什么都不写或者return后面的是None. 返回None 3.return 一个值. 返回一个结果 4.return 值,值,值 返回多…
小学生都能学会的python(深浅拷贝) join() 把列表中的每一项用字符串拼接起来 # lst = ["汪峰", "吴君如", "李嘉欣", "陈慧琳", "关之琳"] # # 遍历列表. 把列表中的每一项用"_" 做拼接 # s = "_".join(lst) # 把列表转化成字符串 # print(s) # # # s1 = "汪峰_吴君如_李嘉欣…
小学生都能学会的python(字典{ }) 1. 什么是字典 dict. 以{}表示. 每一项用逗号隔开, 内部元素用key:value的形式来保存数据 {"jj":"林俊杰", "jay":"周杰伦"} 查询的效率非常高, 通过key来查找元素 内部使用key来计算一个内存地址(暂时),hash算法. key必须是不可变的数据类型(key 必须是可哈希的数据类型) 可哈希就是不可变 2. 字典的增删改查 1. 字典的新增:…
小学生都能学会的python(列表[ ]) 1. 什么是列表(list) 能装东西的东西 列表中装的数据是没有限制的, 大小基本上是够用的 列表使用[]来表示. 在列表中每个元素与元素之间用逗号隔开 有索引和切片 [start, end, step] 2. 增删改查 1. 增加: append(), insert(), extend()迭代增加 2. 删除: remove(), pop(), clear(), del 3. 修改: 索引修改 4. 查询: for el in list: el 5…
小学生都能学会的python(<<lamda匿名函数,sorted(),filter(),map(),递归函数,二分法>> 1. lambda 匿名函数 lambda 参数: 返回值 注意: 1. 函数的参数可以有多个. 多个参数之间⽤逗号隔开2. 匿名函数不管多复杂. 只能写⼀⾏, 且逻辑结束后直接返回数据3. 返回值和正常的函数⼀样, 可以是任意数据类型 # def fang(x): # return x**2 # # # ret = fang(5) # # print(ret…
小学生都能学会的python(生成器) 1. 生成器 生成器的本质就是迭代器. 生成器由生成器函数来创建或者通过生成器表达式来创建 # def func(): # lst = [] # for i in range(10000): # lst.append("衣服%s" % i) # return lst # lst = func() # print(lst) # def func(): # for i in range(1, 10000): # yield "衣服%s&qu…
一,小学生第一天 1,认识和了解python python的创始⼈为吉多·范罗苏姆(Guido van Rossum). python是一门解释性语言  弱类型语言 优点:(1).Python的定位是“优雅”.“明确”.“简单” (2).开发效率⾮常⾼ (3). ⾼级语⾔————当你⽤Python语⾔编写程序的时候,你⽆需考虑诸如如何管理你的程序使⽤的内存⼀类的底层细节 (4). 可移植性————由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够⼯ 作在不同平台上).如果你⼩…
大家好鸭!有没有想我~(https://jq.qq.com/?_wv=1027&k=rX9CWKg4) 在 Python 中,多线程最常见的一个场景就是爬虫,例如这样一个需求,有多个结构一样的页面需要爬取,例如下方的URL(豆瓣阿凡达影评,以10个为例) url_list = ['https://movie.douban.com/subject/1652587/reviews?sort=time&start=0','https://movie.douban.com/subject/1652…
关于ASCII码和Unicode码的来源 计算机只能处理数字,如果要处理文本,需要先将文本转换成数字.早期计算机采用8bit作为一个字节(byte).所以一个字节最大为255(二进制11111111=十进制255),更大的数字需要更长的字节. 由于计算机是美国人发明,最早只有127个字符被编码到计算机中,即英文常见的大小写字母,数字和一些符合,这个编码表就是ASCII编码. 但是世界各地有各种语言,所以ASCII码不能满足需求了.所以中国制定了GB2312编码,把中文加进去了.其他国家也都有自己…
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可…
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128) 为了解决问题,我花时间去研究了一下 Python 的字符编码处理.网上也有不少文章讲 Python 的字符编码,但是我看过一遍,觉得自己…
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python字符串的编解码问题,这也是为什么在python中,只有字符串,才有decode和encode方法.在python中,字符串为str类型,其父类为basestring.unicode和ascii是str类型的两种常见编码,ascii是字符串的默认编码,如 str(12).ascii编码的字符串,7bi…
Python文件头部模板 先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View--选中Toolbar工具条…
摘要: 为了在源代码中支持非ASCII字符,必须在源文件的第一行或者第二行显示地指定编码格式: # coding=utf-8 或者是: #!/usr/bin/python # -*- coding: utf-8 -*- 在python中和字符串相关的数据类型,分别是str.unicode两种,他们都是basestring的子类,可见str与unicode是两种不同类型的字符串对象. basestring / \ / \ str unicode 不论是Python3x.Java还是其他编程语言,U…
本节内容: 前言 相关概念 Python中的默认编码 Python2与Python3中对字符串的支持 字符编码转换 一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章.有的人云亦云,也有的写得很深入.近日看到某知名培训机构的教学视频中再次谈及此问题,讲解的还是不尽人意,所以才想写这篇文字.一方面,梳理一下相关知识,另一方面,希望给其他人些许帮助. Python2的 默认编码 是ASCII,不能识别中文字符,需要显式指定字符编码:Python3的 默认编码 为Uni…
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是Windows中的cmd,默认codepage是CP936,cp936就是指系统里第936号编码格式,即GB2312的编码. (当然有其它编码格式:cp950 繁体中文.cp932 日语.cp1250 中欧语言...) Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案.UTF…
http://blog.csdn.net/willhuo/article/details/49300441 决定开始Python之路了,利用业余时间,争取更深入学习Python.编程语言不是艺术,而是工作或者说是工具,所以整理并遵循一套编码规范是十分必要的.所以今天下午我根据PEP 8整理了一份,以后都照此编码了,还会持续更新. PEP8 Python 编码规范 一 代码编排1 缩进.4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格.2 每行最大长度79,换行可…
将一个py脚本从Centos转到win运行,出错如下: UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence 虽然明白是编码的问题,网络上decode()什么的,貌似不适用python3.后来发现使用字节方式打开可以.出错函数如下:gridfs.GridFS.put()函数.其中调用了读写操作 If you want raw bytes then you n…
Python编码/文件读取/多线程 个人笔记~~记录才有成长   编码/文件读取/多线程 编码 常用的一般是gbk.utf-8,而在python中字符串一般是用Unicode来操作,这样才能按照单个字来处理,所以需要对不同的编码格式进行转化. 这里需要的函数decode和encode,形式都很简单,只要牢记对应的格式对应的编码就好 如果是utf-8,想转换成unicode content.decode('utf-8') 如果是Utf-8,想转换成gbk content.decode('utf-8…
计算机里面,编码方法有很多种,英文的一般用ascii,而中文有unicode,utf-8,gbk,utf-16等等. unicode是 utf-8,gbk,utf-16这些的父编码,这些子编码都能转换成unicode编码,然后转化成子编码,例如utf8可以转成unicode,再转gbk,但不能直接从utf8转gbk 所以,python中就有两个方法用来解码(decode)与编码(encode),解码是子编码转unicode,编码就是unicode转子编码 1.编码 #encoding=utf-8…
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是Windows中的cmd,默认codepage是CP936,cp936就是指系统里第936号编码格式,即GB2312的编码. (当然有其它编码格式:cp950 繁体中文.cp932 日语.cp1250 中欧语言...) Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案.UTF…
在 python 源代码文件中,如果你有用到非ASCII字符,则需要在文件头部进行字符编码的声明,声明如下: # code: UTF-8 因为python 只检查 #.coding 和编码字符串,所以你可能回见到下面的声明方式,这是有些人为了美观等原因才这样写的: #-*- coding: UTF-8 -*- 常见编码介绍: GB2312编码:适用于汉字处理.汉字通信等系统之间的信息交换 GBK编码:是汉字编码标准之一,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码 ASC…
python encode decode 编码 decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码. encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码. 当我们想获取网页源代码,并且希望能够以html后缀或者其他格式保存文件的时候,如果不进行编码,那么保…
Python的编码问题,真是让人醉了.最近碰到的问题还真不少.比如中文文件名.csv .python对外呈现不一致啊,感觉好不公平. 没图说个JB,下面立马上图.   我早些时候的其他脚本,csv都是中文命名的,都没有出现这些问题.现在都还能跑. 再次回头看以前的脚本,以前的脚本是这么写的 with open(parent_DIR + r"\testdata\\投资申请.csv","rb+") as csvfile:​ 问题1已解决. 更离谱的是同一段代码往同一个c…