组件: ENGINE:引擎,框架的核心,其他组件在其控制下协同工作. SCHEDULER:调度器,负责对SPIDER提交的下载请求进行调度 DOWNLOADER:下载器,负责下载页面,发送HTTP请求/接收HTTP响应 SPIDER:爬虫,负责提取页面数据,并产生对新的页面的下载请求 MIDDLEWARE:中间件,负责对Request对象和Response对象进行处理 ITEM PIPELINE:数据管道,负责对爬取到的数据进行处理 数据流: REQUEST:Scrapy中HTTP请求对象 RE