Scrapy是一个流行的Python爬虫框架, 用途广泛. 使用pip安装scrapy: pip install scrapy scrapy由一下几个主要组件组成: scheduler: 调度器, 决定下一个要抓取的url, 核心是一个任务队列 scrapy engine: 引擎, 用于控制整个系统的任务和数据流 downloader: 下载器, 下载目标url的内容并交给spider处理 spider: 爬虫, 用于分析下载内容, 提取数据项(item)包括获取要继续爬取的url. pipel…