爬虫用于从网上得到目标数据,根据需要对其予以利用,加以分析,得到想要的实验成果.现在讲一讲我这两天学到的东西. 第一,爬虫的算法结构,包括以下几个方面: (1)读取网络数据 (2)将获取的数据解析为目标格式,进而筛选出想要的数据 (3)将有用数据存于本地数据库中 第二,具体实施方案 (1)读取网络数据,需要用到urllib和urllib2两个库,和需要爬取数据的资源定位符URL. 通过url,将网页所有数据1 request = urllib2.request(url) response = u