爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这样的说法不够专业,更专业的描写叙述就是.抓取特定站点网页的HTML数据.只是因为一个站点的网页非常多,而我们又不可能事先知道全部网页的URL地址,所以,怎样保证我们抓取到了站点的全部HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面.然后一般一个页面会有其它页面的URL,于是从当前页面获取到这些URL增加到爬虫的抓取队列中.然后进入到新页面后再递归的进行上述的操作.事实上说来就跟深度遍历或广度遍历一样. Scrapy是一个…