经过整个春节的放肆,终于回归了,说实话,春节真心比上班累. 9.1 爬虫及爬行方式 (1) 爬虫:Web爬虫是一种机器人,他们会递归性的对各种信息Web站点进行遍历. (2) 爬行方式:Web机器人会获取Web页面,然后获取这个页面指向的所有Web页面,再指向这个站点所指向的页面,依次类推. (3) 从哪儿开始:根集 爬虫在开始访问的URL初始集合被称为根集.通常一个好的根集会包括一些大的流行Web站点.一个新创建的列表和一个不经常被链接的的无页面列表. (4) 链接的提取:爬虫在在Web上移动…