Python 3 & 爬虫一些记录


  • Python任何数据都看成一个“对象”,变量指向数据对象,对变量赋值就是把数据和变量给关联起来。
  • Python的整数没有大小限制浮点数也没有大小限制,但是超出一定范围就直接表示为inf(无限大)。
  • ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符
  • ASCII只能表示英文和某些符号1字节,UniCode可以表示所有国家的语言2字节,ASCII前面加上一个字节的0就是Unicode,对于全英文文本使用Unicode浪费空间。
  • 解决方案:UTF-8智能编码,英文编码成1字节,汉字编码成3字节。。。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间

交互模式和命令行模式

  • 打开终端就进入了命令行模式
  • 命令行模式下可以输入Python3 进入Python3 的交互模式,也可以Python 1.py运行.py文件
  • 交互模式下只能输入一行代码,然后运行一行代码,并自动 打印结果输出(相当于启动了Python解释器,输入一行,执行一行),执行.py文件只能在命令行模式下
  • 命令行模式下下会自动把每一行代码结果打印出来,也就是命令行下默认最后加上print语句。但是直接运行python代码不会

函数积累

print中 r'' 表示里面的字符默认不转义

多行字符串'''...'''表示法,可以结合r一起使用,r'''...'''表示多行字符串不转义
print('''a
b
c''')
>>> a
b
c strip()去除前后空格 lstrip()去除前面空格 rstrip()去除后面空格 str.title()首字母大写 str.upper()/lowwer()全字母大小写 str(int_name) int数据转化为字符串 字符串连接直接使用 + ,整数和字符串不能直接连接,整数强制
转化为字符串str(int)+"str"; 数组使用[]括起来,直接打印数组会将方括号和引号逗号一起打印出来,下标访问。 数组a.[-1]返回倒数第一个元素,-2倒数第二个,依次类推 append(),pop(index)可以弹出指定位置的元素,del(a[0]),insert(1,x);
remove(元素)删除第一个匹配的
len(list) :获取数组长度 ** 代表^幂符号 列表切片
print(a[1:3])输出指定位置的元素
a=values[1:3]使用切片能复制列表
a=values直接使用等号使两个列表指向同一个对象

语法积累

  • python里面根据缩进判断两行语句之间的关系,for循环没有大括号,:作为for的起始,4个空格缩进表示属于for循环的语句。

列表和元组

  • 列表可变,元组不可变,不能修改元组部分值,但是可以给元组重新赋值
  • 元组是特殊的列表,列表使用[],元组使用()
  • 将列表名作为条件表达式时,取的是列表的长度
  • 元组的不变是 “指向不变”,如果元组某元素指向了一个列表,列表元素可变,即使列表元素变了,元组的指向也没有改变
if(list):
do something //if list is not null,do something

输入

input(str):输入函数,接受一个参数,在输入前打印,将用户读入解读为字符串,使用int()函数转换

交互模式下输入多行

  • 代码后面添加;\

爬虫

HTTP报文请求头User-Agent信息

  • 格式:Mozilla/5.0 (平台) 引擎版本 浏览器版本号
  • 其中平台可以是操作系统或者python库,一般爬虫请求HTTP报文默认显示平台为Python库

解析库pyquery

#巨坑:!!!!!!
doc=pq(url,parser='html')#最好指定解析器为HTML,默认为xml,碰到XHTML网页会解析出错 # 创建PyQuery对象(css选择器)
from pyquery import PyQuery as pq #从库中导入PyQuery类并且定义别名为pq # 可以使用''''''来表示字符串,这种表示方法可以接受换行
html='''
<div id="container">
<ul class="list">
<li class='item-0'>first item </li>
<li class='item-1'><a href="link2.html">second item< </li>
<li class ='item-a active'><a href="link3.html">< span class ="bold"> third item </span></a></li>
<li class ="item-1 active"><a href ="link4.html"〉fourth item</a></li>
<li class ="item-0"><a href= "link5.html"> fifth item</a></li>
</ul>
</div>
''' doc =pq(url='http://www.baidu.com') #doc为PyQuery对象
# doc=pq(filename='demo.html')从文件中创建pq对象 # 元素选择,''中位css选择器
print(doc('li')) #选择出所有的li标签,并且所有<li> </li>标签的内容加上li标签打印 # 选择器的结果也是pq对象
print(type(doc('li'))) # 更高级的元素选择
print(doc('#container .lisr li'))# id标签#表示后面跟id名,class使用.表示后接名字,空格分隔
# 可以直接在''css选择器中使用空格分隔实现嵌套选择,无空格表示并列查询
r=requests.get(url) #访问网页,获取网页内容

r.encoding #获取当前对象的编码

rencoding='utf-8'  #使当前对象转化为utf-8形式,如果网页是utf-8,而当前对象不是utf-8,则直接输出会乱码

# Python 3 & 爬虫一些记录的更多相关文章

  1. python之爬虫学习记录与心得

    之前在寒假的时候,学习了python基础.在慕课网上看的python入门:http://www.imooc.com/learn/177 python进阶:http://www.imooc.com/le ...

  2. Python简单爬虫记录

    为了避免自己忘了Python的爬虫相关知识和流程,下面简单的记录一下爬虫的基本要求和编程问题!! 简单了解了一下,爬虫的方法很多,我简单的使用了已经做好的库requests来获取网页信息和Beauti ...

  3. Python爬虫学习记录【内附代码、详细步骤】

    引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先 ...

  4. Python爬虫个人记录(三)爬取妹子图

    这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫 一.目的分析 获取煎蛋妹子图并下载 http://jan ...

  5. Python爬虫个人记录(二) 获取fishc 课件下载链接

    参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析 获取http://bbs.fishc.com/for ...

  6. Python爬虫实践 -- 记录我的第二只爬虫

    1.爬虫基本原理 我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...

  7. python网络爬虫学习笔记

    python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

  8. 第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索

    第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门 我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...

  9. 第三百六十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引

    第三百六十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引 倒排索引 倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包 ...

随机推荐

  1. cropbox.js 头像裁剪插件

    cropbox.js 一个轻量级和简单的JavaScript,Jquery,YUI插件来裁剪您的头像. 特征 支持dataUrl显示图像(函数getDataURL) 支持Blob上传图片(函数getB ...

  2. ie浏览器中时间转换

    var begintime = $("#start").val(); var lastLoginTimeStart =new Date(begintime).getTime();/ ...

  3. HDU 4496 D-City —— (并查集的应用)

    给出n个点和m条边,一条一条地删除边,问每次删除以后有多少个联通块. 分析:其实就是并查集的应用,只是前一阵子一直做图论思路一直囿于tarjan了..方法就是,记录每一条边,然后从最后一条边开始不断的 ...

  4. 预处理、const、static与sizeof-static有什么作用(至少说出2个)

    1:在C语言中,关键字static有3个明显的作用: (1)在函数体,一个被声明为静态的变量在这一函数被调用的过程中维持其值不变. (2)在模块内(但在函数体外),一个被声明为静态的变量可以被模块内所 ...

  5. adb命令连接Android模拟器夜神模拟器

    1.打开夜神模拟器,打开设置,调成手机模式,初次进入的话,进入设置 - 关于平板电脑 - 版本号,点击版本号5次,可以激活使用开发者模式:打开设置 -> 开发者选项 -> USB调试, 打 ...

  6. pytorch-VGG网络

    VGG网络结构 第一层: 3x3x3x64, 步长为1, padding=1 第二层: 3x3x64x64, 步长为1, padding=1 第三层: 3x3x64x128, 步长为1, paddin ...

  7. linux如何绑定域名和ip?

    答: 通过在/etc/hosts中添加条目,如下: <ip_address> <domain_name> 如: 11.11.11.11 www.baidu.com

  8. 深度学习之加载VGG19模型分类识别

    主要参考博客: https://blog.csdn.net/u011046017/article/details/80672597#%E8%AE%AD%E7%BB%83%E4%BB%A3%E7%A0% ...

  9. C#可以直接调用的Win32API

    以前整理的Win32 API,可以直接在C#中直接调用,在做WinForm时还是很有帮助的.以前用在一个多窗口界面中,当轮询窗口时,调用API会提高很多效率. 源码下载 http://files.cn ...

  10. java IO流的API

    常用的IO流API有:[InputStream.OutputStream] [FileInputStream.FileOutputStream] [BufferedInputStream.Buffer ...