爬虫 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应, 一种按照一定的规则,自动地抓取互联网信息的程序. 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做 爬虫的分类: 通用爬虫 :通常指搜索引擎的爬虫 聚焦爬虫 :针对特定网站的爬虫(重点) 聚焦爬虫的具体流程: 构造url 发起请求获取响应 提取数据 保存数据 搜索引擎的工作流程: 抓取网页 数据存储 预处理 提供检索服务网站排名 搜索引擎的局限性: 通用搜索引擎所返回的网页里80%的内容