1 什么是网页爬虫 网络爬虫( 网页蜘蛛,网络机器人,网页追逐者,自动索引,模拟程序)是一种按照一定的规则自动地抓取互联网信息的程序或者脚本,从互联网上抓取对于我们有价值的信息.Tips:自动提取网页的程序,为搜索引擎从万维网上下载网页,是搜索引擎的重要组成. (1) 对抓取目标的描述或定义: (2) 对网页或数据的分析与过滤: (3) 对URL的搜索策略. 2 Python爬虫架构 Python爬虫架构主要由调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据)5个部分组成…