一、urllib

1. 访问

urllib.request.urlopen()

参数:

  • url:需要爬取的URL地址
  • timeout:设置等待时间,指定时间内未得到相应时抛出异常
# 导入模块
import urllib.request url = "http://www.baidu.com/"
# 向百度发起请求,得到相应对象
html = urllib.request.urlopen(url) print(html.read().decode("utf-8")) # 得到网页源代码,为str类型
print(html.status) # 得到响应状态码

2.响应方法

1、bytes = response.read() # 获取原生的网页源码
2、string = response.read().decode("utf-8") # 获取网页源码并转码
3、url = response.geturl() # 获取资源的URL
4、code = response.getcode() # 获取响应状态码
5、string.encode() # string --> bytes
6、bytes.decode() # bytes --> string

3. 包装

3.1 User-Agent

urllib.request.Request()

作用:创建请求对象(包装请求,重构User-Agent,使程序更像正常人类请求)

参数:

  • url:请求的url地址
  • headers:添加请求头

使用

  • 构造请求对象(重构User-Agent)
  • 发送请求获取响应对象(urlopen)
  • 获取响应内容
from urllib import request

url = "http://www.httpbin.org/get"
header = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"} # 向百度发起请求,得到相应对象
res = request.Request(url, headers=header)
res = request.urlopen(res)
html = res.read().decode("utf-8")
print(html)

另外,python还提供了第三库fake_useragent来随机生成User-Agent

from fake_useragent import UserAgent
useragent = UserAgent()
useragent = {"User-Agent" : useragent.random}
print(useragent)
print(useragent)
print(useragent)
print(useragent)

3.2 编码

urllib.parse.urlencode()

编码之前:https://www.baidu.com/s?&wd=美女

编码之后:https://www.baidu.com/s?&wd=%E7%BE%8E%E5%A5%B3

In [1]: from urllib import parse

In [2]: query_string = {"wd" : "美女"}

In [3]: reslut = parse.urlencode(query_string)

In [4]: print(reslut)
wd=%E7%BE%8E%E5%A5%B3
**访问百度**
from urllib import parse, request
from fake_useragent import UserAgent header = {"User-Agent":UserAgent().random}
query_string = {"wd" : "美女"}
url = "https://www.baidu.com/s?" + parse.urlencode(query_string) response = request.Request(url, headers=header)
html = request.urlopen(response).read().decode("utf-8") print(html)

字符编码

In [10]: import urllib.parse

In [11]: string = urllib.parse.quote("美女")

In [13]: "https://www.baidu.com/s?wd=" + string
Out[13]: 'https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3'

字符解码

In [14]: import urllib.parse

In [15]: str = "%E7%BE%8E%E5%A5%B3"

In [16]: urllib.parse.unquote(str)
Out[16]: '美女'

3.3 多参数

In [1]: from urllib import parse
In [2]: query_string_dic = {
...: "wd" : "美女",
...: "pn" : "50"
...: }
In [3]: r = parse.urlencode(query_string_dic)
In [4]: r
Out[5]: 'wd=%E7%BE%8E%E5%A5%B3&pn=50'

不难发现,parse会在两个参数之间自动加上&符号,因此可以直接构造URL访问

3.4 拼接URL

  • 字符串相加

    'https://www.baidu.com/s?' + urlencode({"wd" : "美女", "pn" : "50"})

  • 字符串格式化(占位符)

    'https://www.baidu.com/s?%s' % urlencode({"wd" : "美女", "pn" : "50"})

  • format()

    'https://www.baidu.com/s?{}'.format(urlencode({"wd" : "美女", "pn" : "50"}))

请求百度搜索的内容,把响应内容保存到本地文件

from urllib import request, parse
from fake_useragent import UserAgent wd = input("请输入关键字:") url = "https://www.baidu.com/?{}".format(parse.urlencode({"wd":wd}))
header = {"User-Agent" : UserAgent().random} req = request.Request(url=url, headers=header)
res = request.urlopen(req)
html = res.read().decode("utf-8") filename = "{}.html".format(wd)
with open(filename, "w") as f:
f.write(html)

在读写文件的时候经常遇见编码问题

在Windows中使用utf-8会报错

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 30904: illegal multibyte sequence

在读写文件加上参数with open("demo.txt", encoding="gbk18030") as f这种编码识别的国标会更多

4. 示例

百度贴吧数据抓取

要求

  • 输入贴吧名称
  • 输入起始页
  • 输入终止页
  • 保存到本地文件:第1页.html、第2页.html ...

代码实现

from urllib import parse, request
from fake_useragent import UserAgent
import time
import random class BaiduSpider(object):
def __init__(self):
self.url = "http://tieba.baidu.com/f?kw{}&pn={}"
self.headers = {"User-Agent" : UserAgent().random} # 获取响应页面
def get_page(self, url):
req = request.Request(url=url, headers=self.headers)
res = request.urlopen(req)
html = res.read().decode("utf-8") return html # 提取数据
def parse_page(self):
pass # 保存数据
def write_page(self, filename, html):
with open(filename, "w", encoding="utf-8") as f:
f.write(html) # 主函数
def main(self):
name = input("请输入贴吧名:")
start = int(input("请输入起始页:"))
end = int(input("请输入终止页:")) # 拼接URL,发送请求
for page in range(start, end+1):
pn = (page - 1) * 50
kw = parse.quote(name)
url = self.url.format(kw, pn)
# 获取响应,保存
html = self.get_page(url)
filename = "{}-第{}页.html".format(name, page)
self.write_page(filename, html) # 控制速度,随机休眠
time.sleep(random.randint(1, 3)) # 随机休眠1-3秒钟 if __name__ == '__main__':
spider = BaiduSpider()
spider.main()

爬虫基础 之 urllib的更多相关文章

  1. 【学习笔记】第二章 python安全编程基础---python爬虫基础(urllib)

    一.爬虫基础 1.爬虫概念 网络爬虫(又称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或脚本.用爬虫最大的好出是批量且自动化得获取和处理信息.对于宏观或微观的情况都可以多一个侧面去了 ...

  2. 爬虫基础(1):urllib库

    urllib库 urllib库是python中的一个基本网络请求库.用于模拟浏览器的行为,向指定服务器发送请求,并接收返回的数据. 在python3中所有的网络请求相关函数都集中在urllib.req ...

  3. Python爬虫基础之Urllib

    一.随时随地爬取一个网页下来 怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等.Chro ...

  4. 爬虫基础之urllib库(代码演示)

    # 自定义opener   from urllib.request import ProxyHandler,build_opener from urllib.error import URLError ...

  5. 爬虫基础之urllib库

    urllib库的基本使用 urlopen() # 导入urllib库 import urllib # 往指定url发送请求,返回一个响应对象 response = urllib.request.url ...

  6. python 3.x 爬虫基础---Urllib详解

    python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 前言 爬虫也了解了一段时间了希望在半个月的时间内 ...

  7. 第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础

    第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础 在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...

  8. 第三百二十七节,web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求

    第三百二十七节,web爬虫讲解2—urllib库爬虫 利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode(& ...

  9. Python爬虫基础

    前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...

随机推荐

  1. Mysql-5.5版本搭建实例的部分库的从库

    由于业务需要在Mysql实例中创建部分库的从库,已有的Mysql实例的版本是mysql-5.5.49,是一个非常老的版本. 本文档涉及到服务器中运行多实例和构建实例中部分库的从库. 服务器 mysql ...

  2. AMQP与RabbitMQ

    转载请注明原文地址:https://www.cnblogs.com/ygj0930/p/10922433.html 一:AMQP是什么 AMQP(Advanced Message Queuing Pr ...

  3. IIS下配置Php+Mysql+zend的图文教程(完整版)

    网上有很多关于PHP在IIS下配置的教程,但都是一些很理性化的东西,我从里面整理出来这个教程 发出来为了方便参考,,有什么问题也可以大家一起交流,,如果有什么不对的地方,请指正.. 下面的教程都是在w ...

  4. javascript之DOM选择符

    javascript库中最常用的一项功能,就是根据CSS选择符选择与某个模式匹配的DOM元素.实际上jQuery的核心就是通过css选择符查询DOM文档取得元素的引用,从而抛开了getElementB ...

  5. 第一部分day5 文件操作

    #-----文件操作----- 文件操作模式 1."r" 读 2."w" 清空写入 3."a" 追加 4."r+" 读写 ...

  6. vuex中mapGetters的使用及简单实现原理

    一.项目中的mapGetters在Vue项目的开发过程中必然会使用到vuex,对vue项目公用数据进行管理,从而解决组件之间数据相互通信的问题,如果不使用vuex,那么一些非父子组件之间的数据通信将会 ...

  7. HTML基础二-DOM操作

    http://www.imdsx.cn/index.php/2017/07/27/html2/ DOM(Document Object Model 文档对象模型) 一个web页面的展示,是由html标 ...

  8. [BZOJ2667][cqoi2012][kcoj]模拟工厂

    题目描述 Description 有一个称为“模拟工厂”的游戏是这样的:在时刻0,工厂的生产力等于1.在每个时刻,你可以提高生产力或者生产商品.如果选择提高生产力,在下一个时刻时工厂的生产力加1:如果 ...

  9. docker nginx 命令。

    docker run -d -p 80:80 -p 443:443 --name baiqian.site --restart=always -v ~/wwwroot/layx:/usr/share/ ...

  10. Linux磁盘管理——分区和文件系统

    1.分区类型 (1)主分区:最多只能有四个(主分区加扩展分区一共有四个). (2)扩展分区:最多有一个,是主分区中的其中一个.不能存储数据也不能格式化,必须再分成逻辑分区才能使用. (3)逻辑分区:是 ...