Python十分适合用来开发网页爬虫,理由如下:1.抓取网页自身的接口比较与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简练:比较其他动态脚本语言,如perl,shell,python的urllib2包供给了较为完整的访问网页文档的API.(当然ruby也是很好的挑选)此外,抓取网页有时候需求模仿浏览器的行为,许多网站对于僵硬的爬虫抓取都是封杀的.这是咱们需求模仿user agent的行为构造适宜的请求,比如模仿用户登陆.模仿session/cookie的存储和设