一.爬虫 1.概述 网络爬虫,搜索引擎就是爬虫的应用者. 2.爬虫分类 (1)通用爬虫,常见就是搜索引擎,无差别的收集数据,存储,提取关键字,构建索引库,给用户提供搜索接口. 爬取一般流程: 初始化一批URL,将这些url放入到等待爬取队列. 从队列取出这些url,通过dns解析ip,对应ip站点下载HTML页面,保存到本地服务器中,爬取完的url放到已爬取队列. 分析这些网页内容,找出网页里面关心的url连接,继续执行第二步,直到爬取结束. 搜索引擎如何获取一个新网站的url. 新网站主动提交