Python 爬虫从入门到进阶之路（二）

上一篇文章我们对爬虫有了一个初步认识，本篇文章我们开始学习 Python 爬虫实例。

在 Python 中有很多库可以用来抓取网页，其中内置了 urllib 模块，该模块就能实现我们基本的网页爬取。

在 Python2.x 和 Python3.x 中 urllib 模块是不一样的，但是用法上差不多，我们先用 Python2.x 中的 urllib 来实现一个 demo。

在 Python2.x 中内置了 urllib 模块，但是 Python 创始人 Guido van Rossum 觉得其太臃肿了，于是又写了一个 urllib2，两者有很多不同，最显著的如下：

（1）urllib仅可以接受URL，不能创建，设置headers的request类实例；

（2）但是urllib提供urlencode()方法用来GET查询字符串的产生，而urllib2则没有（这是urllib和urllib2经常一起使用的主要原因）

（3）编码工作使用urllib的urlencode()函数，帮我们讲key:value这样的键值对转换成‘key=value’这样的字符串，解码工作可以使用urllib的unquote()

函数

我们就使用 urllib2 来实现一个简单的爬虫：

 # 导入urllib2 库

 import urllib2

 # 向指定的url发送请求，并返回服务器响应的类文件对象

 response = urllib2.urlopen("http://www.baidu.com")

 # 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

在上面的代码中我们其实就相当于模拟了查看百度首页，然后获取百度首页的 html 内容。

urllib2 在 python3.x 中被改为urllib.request,python2.x 的 urllib 和 urllib2 在 python3.x 中合并为 urllib

在 Python3.x 中实现上面的代码如下：

 # 导入urllib 库

 import urllib.request

 # 向指定的url发送请求，并返回服务器响应的类文件对象

 response = urllib.request.urlopen("http://www.baidu.com")

 # 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

最终的打印结果如下，内容太长就截一小段：

历史的车轮滚滚而来，虽然大部分 Python 使用者还在使用 Python2.x，但 Python3.x 肯定有其之长才被发布的，本人作为小白，就选取 Python3.x 学习吧。

在我们上面的例子中，urlopen()的参数就是一个url地址；

但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。

 # 导入urllib 库

 import urllib.request

 # url 作为Request()方法的参数，构造并返回一个Request对象

 request = urllib.request.Request("http://www.baidu.com")

 # Request对象作为urlopen()方法的参数，发送给服务器并接收响应

 response = urllib.request.urlopen(request)

 # 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

最终的打印结果一致。

新建Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：

data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式改为 "POST"方式。

headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。

这两个参数下面会说到。

但是这样直接用 urllib 给一个网站发送请求的话，确实略有些唐突了，就好比，人家每家都有门，你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序（非人为访问）访问，有可能会拒绝你的访问请求。

但是如果我们用一个合法的身份去请求别人网站，显然人家就是欢迎的，所以我们就应该给我们的这个代码加上一个身份，就是所谓的User-Agent头。

浏览器就是互联网世界上公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步，就是需要伪装成一个被公认的浏览器。用不同的浏览器在发送请求的时候，会有不同的User-Agent头。

现在我们就来加一个 User-Agent 的报头。

当我们打开 https://www.baidu.com/，我们在开发者工具的 Network 下，我们会找到一个

User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36

当然还有 Accept，Host，Cookie 等信息，这里我们先不考虑，后期会讲到。

 # 导入urllib 库

 import urllib.request

 import ssl

 # 取消代理验证

 ssl._create_default_https_context = ssl._create_unverified_context

 # User-Agent

 headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"}

 # url 作为Request()方法的参数，构造并返回一个Request对象

 request = urllib.request.Request("http://www.baidu.com",headers=headers)

 # Request对象作为urlopen()方法的参数，发送给服务器并接收响应

 response = urllib.request.urlopen(request)

 # 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

在上面的代码中，我们又引入了 ssl 模块，由于现在百度使用的是 https 协议，进入页面需要代理验证，为了不必要的麻烦，我们干脆取消代理验证，所以用到了 ssl 模块。

然后我们定义了一个 headers 的变量，即响应头信息，然后我们在 Request 的第二个形参中将 headers=headers，这样我们在请求 https://www.baidu.com/，就相当于我们手动在浏览器输入 url 链接是一样的效果。

Python 爬虫从入门到进阶之路（二）的更多相关文章

Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
Python 爬虫从入门到进阶之路（六）
在之前的文章中我们介绍了一下 opener 应用中的 ProxyHandler 处理器(代理设置),本篇文章我们再来看一下 opener 中的 Cookie 的使用. Cookie 是指某些网站服务器 ...
Python 爬虫从入门到进阶之路（九）
之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块,本章我们就利用正则表达式和 re 模块来做一个案例,爬取<糗事百科>的糗事并存储到本地. 我们要爬取的 ...
Python 爬虫从入门到进阶之路（十二）
之前的文章我们介绍了 re 模块和 lxml 模块来做爬虫,本章我们再来看一个 bs4 模块来做爬虫. 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也 ...
Python 爬虫从入门到进阶之路（十五）
之前的文章我们介绍了一下 Python 的 json 模块,本章我们就介绍一下之前根据 Xpath 模块做的爬取<糗事百科>的糗事进行丰富和完善. 在 Xpath 模块的爬取糗百的案例中我 ...
Python 爬虫从入门到进阶之路（十六）
之前的文章我们介绍了几种可以爬取网站信息的模块,并根据这些模块爬取了<糗事百科>的糗百内容,本章我们来看一下用于专门爬取网站信息的框架 Scrapy. Scrapy是用纯Python实现一 ...
Python 爬虫从入门到进阶之路（十七）
在之前的文章中我们介绍了 scrapy 框架并给予 scrapy 框架写了一个爬虫来爬取<糗事百科>的糗事,本章我们继续说一下 scrapy 框架并对之前的糗百爬虫做一下优化和丰富. 在上 ...
Python 爬虫从入门到进阶之路（五）
在之前的文章中我们带入了 opener 方法,接下来我们看一下 opener 应用中的 ProxyHandler 处理器(代理设置). 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很 ...
Python 爬虫从入门到进阶之路（七）
在之前的文章中我们一直用到的库是 urllib.request,该库已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Hum ...

随机推荐

Django序列化时间报错
一.前言当利用models模块从数据库获取数据时,当获的取数据序列化时,如果获取的数据中有关于时间类型的字段,则会报错,错误如下: TypeError: datetime.datetime(2018 ...
pringboot热部署导致applicationContext获取为空
在项目中遇到一个很奇怪的问题,写了一个SpringContextUtil工具类来获取applicationContext,初始化的时候断点来看的确是初始化了,applicationContext对象不 ...
deleteSections & deleteRows 我踩得坑
需求背景有这样一个需求,有一个用来展示商品的列表,你可以从别的数据源添加过来,能添加当然就能删除了,这时候就用到了UITableView/UICollextionView组或者cell的删除,但在测 ...
django基础之day04知识点----查询相关
from django.test import TestCase # Create your tests here. ''' 当你想单独测试django中某一个py文件时,你需要手动配置测试文件在m ...
C#线程学习笔记九：async & await入门二
一.异步方法返回类型只能返回3种类型(void.Task和Task<T>). 1.1.void返回类型:调用方法执行异步方法,但又不需要做进一步的交互. class Program { ...
一起学Vue之计算属性和侦听器
概述在Vue开发中,模板内的表达式非常便利,但是设计它们的初衷是用于简单运算的.在模板中放入太多的逻辑会让模板过重且难以维护.当你想要在模板中多次引用相同表达式时,就会更加难以处理.所以,对于任何复 ...
Python提升“技术逼格”的6个方法
1 列表生成式和生成器 from numpy import randoma = random.random(10000) lst = []for i in a: lst.append(i * i) # ...
最新IDEA永久激活
此教程已支持最新2019.2版本本教程适用Windows.Mac.Ubuntu等所有平台. 激活前准备工作配置文件修改已经不在bin目录下直接修改,而是通过Idea修改如果输入code一直弹出来 ...
vue组件之间的通信方式
组件之间的通信方式有很多种这里分享4种组件之间的通信方式 props(主要是父传子) 自定义事件(主要是子传父) pubsub消息订阅与发布 xuex 1.props和自定义事件 app.vu ...
vue3.0 本地调试时Invalid Host header
问题场景: vue在开发时只能在本地浏览器里查看效果,我想在手机端真机调试,连接的代码还是本地环境,这样就不用频繁的发布了,于是绑定域名并指向本机的localhost:8080: 但是用域名访问时浏览 ...

Python 爬虫从入门到进阶之路（二）

Python 爬虫从入门到进阶之路（二）的更多相关文章

随机推荐

热门专题