一:什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本: 二:为什么要做网络爬虫? 大数据时代,要进行数据分析,首先要有数据源,数据从何而来? 在进行大数据分析或者进行数据挖掘的时候,数据源可以从某些提供数据统计的网站获得,也可以从某些文献或内部资料中获得,但是这些获得数据的方式, 有时很难满足我们对数据的需求,而手动从互联网中去寻找这些数据,则耗费的精力过大.此时就可以利用爬虫技术,自动地…