解析 `robots.txt` 文件

使用的系统：Windows 10 64位

Python 语言版本：Python 2.7.10 V

使用的编程 Python 的集成开发环境：PyCharm 2016 04

我使用的 urllib 的版本：urllib2

注意： 我没这里使用的是 Python2 ，而不是Python3

一 . 前言

之前，我在网络爬虫科普的时候，介绍过robots.txt 文件，如果你还了解这个文件的功能，请到这个博客学习。

有一些站点它在 robots.txt 文件中设定了禁止流量该站点的代理用户。既然目标站点有这样的规矩，我们就要遵循它。

我们需要做的事情就是：先解析 robots.txt 文件。然后在在对需要下载的网页进行判断是否可以爬取。

我们可以使用 Python 自带的 robotparser 模块，轻松的完成这项工作。下面进行实战。

二 . 原理

我们先来看看目标 robots.txt 文件：http://example.webscraping.com/robots.txt

# section 1
User-agent: BadCrawler
Disallow: /
# section 2
User-agent: *
Crawl-delay: 5
Disallow: /trap 
# section 3
Sitemap: http://example.webscraping.com/sitemap.xml

这个 robots.txt 文件中说：对于BadCrawler 这样的代理用户是禁止浏览本站点的。

我们现在使用这个 Python 自带的 robotparser 模块测试一下：

>>> import robotparser
>>> rp = robotparser.RobotFileParser()
>>> rp.set_url('http://example.webscraping.com/robots.txt')
>>> rp.read()
>>> url = 'http://example.webscraping.com'
>>> user_agent = 'BadCrawler'
>>> rp.can_fetch(user_agent, url)
False
>>> user_agent = 'GoodCrawler'
>>> rp.can_fetch(user_agent, url)
True
>>>

上面这个测试说明了，如果你将你的爬虫程序的 代理用户 设置为： BadCrawler 的话，因为你访问的目标站点已经警告你了：“我们禁止用户代理为BadCrawler 的用户访问本站点里面的所有网站”。所以，我们用 robotparser 模块创建的对象，通过rp.can_fetch(user_agent, url)函数返回：False 。

在can_fetch() 函数前面的一堆都是初始化，can_fetch() 函数是在程序里面使用，它的功能：确定指定的用户代理是否允许访问网页。

搞定

Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件的更多相关文章

Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式
1. 正则解析正则例题 import re # string1 = """<div>静夜思 # 窗前明月光 # 疑是地上霜 # 举头望明月 # 低头思故乡 ...
Python网络爬虫实战(二)数据解析
上一篇说完了如何爬取一个网页,以及爬取中可能遇到的几个问题.那么接下来我们就需要对已经爬取下来的网页进行解析,从中提取出我们想要的数据. 根据爬取下来的数据,我们需要写不同的解析方式,最常见的一般都是 ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
假期学习【六】Python网络爬虫2020.2.4
今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范. 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 ...

随机推荐

NOIP模拟题管道
题目大意给定$n$个点的无向图,求它的$Dfs$序方案数$n\leq 18$ 题解状压$Dp+$记忆化搜索. 设$F_{i,now}$表示到达$i$其中$now$集合代表的点集已经遍历过,还需要遍 ...
bzoj 2282 消防
Written with StackEdit. Description 某个国家有$n$个城市,这$n$个城市中任意两个都连通且有唯一一条路径,每条连通两个城市的道路的长度为\(z_i(z_i ...
转载关于Qsys的指令总线和数据总线
1.关于Qsys的指令总线和数据总线连接的问题(data_master和instruction_master) 关于数据和指令端口的连接的疑问,这是初用Qsys的童鞋们很困惑的问题,之前使 ...
关于modelsim添加库的说明
声明:以下纯属个人习惯. 1.工程建好后添加一个编译好的库的方法是:file->new->library选择a map to an existing library.然后将这个库在你这工程 ...
洛谷 P2212 [USACO14MAR]浇地Watering the Fields
传送门题解:计算欧几里得距离,Krusal加入边权大于等于c的边,统计最后树的边权和. 代码: #include<iostream> #include<cstdio> #in ...
PHP使用curl请求https站点的常见错误及解决方案
使用curl请求http站点和https站点最大的不同就是https站点有证书验证这一环节,如果证书验证不通过则无法发起请求,不管是请求什么类型的站点遇到问题时先把错误码打印出来看一下,打印错误码的代 ...
学习动态性能表(4)--v$sqltext&v$sqlarea
学习动态性能表第四篇-(1)-V$SQLTEXT 2007.5.29 本视图包括Shared pool中SQL语句的完整文本,一条SQL语句可能分成多个块被保存于多个记录内. 注:V$SQLARE ...
LinkedList插入排序实现
昨天遇到一个集合排序的问题,要求在list中插入后数据有序,首先考虑使用集合自带的排序方法,但需要把list转成数组,排序后再转回list.后来发现使用插入算法是最省事的,因为既然是在插入里排序,那么 ...
STM8S103 PB4和PB5
STM8S103的PB4和PB5只能配置成开漏输出,用作I2C通讯: PB4和PB5不能配置为推挽输出,来控制LED之类的,因为内部没有上拉电阻,IO拉高电压只有1.8V左右,要想控制LED,只能通过 ...
微信H5支付 EasyWechat
其中如果想在一个laravel中使用多个不同主题的支付账户,可以在方法实例对象时,将对应的参数进行修改配置. 其中小程序支付,已得到验证. 1.公众号支付等资格申请 2.公众号对应的支付商户主体申请 ...

Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件

解析 robots.txt 文件

一 . 前言

二 . 原理

搞定

Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件的更多相关文章

随机推荐

热门专题

解析 `robots.txt` 文件