CrawlSpider也继承自Spider,所以具备它的所有特性,这些特性上章已经讲过了,就再在赘述了,这章就讲点它本身所独有的. 参与过网站后台开发的应该会知道,网站的url都是有一定规则的.像django,在view中定义的urls规则就是正则表示的.那么是不是可以根据这个特性来设计爬虫,而不是每次都要用spider分析页面格式,拆解源码.回答是肯定的,scrapy提供了CrawlSpider处理此需求. 在CrawlSpider源码中最先定义的是类Rule: 这个类非常的简单,也只在这里使…