一.爬虫协议 与其它爬虫不同,全站爬虫意图爬取网站所有页面,由于爬虫对网页的爬取速度比人工浏览快几百倍,对网站服务器来说压力山大,很容易造成网站崩溃. 为了避免双输的场面,大家约定,如果网站建设者不愿意爬虫访问某些页面,他就按照约定的格式,把这些页面添加到 robots.txt 文件中,爬虫应该主动避免访问这些页面.除此之外,作为爬虫编写者也应该主动控制爬虫访问速度. 访问 robots 协议的方式是:网站域名+'/robots.txt'. 二.处理爬虫协议 import urllib.robo…