往往需要爬取的网页是呈一个树状结构.比如,需要先爬取一个目录,然后再在目录中选择具体的爬取目标.而目录和具体目标之间,网页结构不同,使得我们不能使用相同的爬取策略. 从之前的经验来看,我们对scrapy进行操作是从Spider的Parse()函数作为入口.不如在parse()函数中对对目录进行操作,获取相应目标的url,再进一步爬取具体内容. 代码如下: class ZhangzishiSpider(scrapy.Spider): name = 'zhangzishi' allowed_doma…