一般成熟的网站都会有反爬虫策略,例如限制访问次数,限制访问 IP,动态显示数据等.爬虫和反爬虫就是一直相爱相杀地互相钳制.如果要通过爬虫来获取某些大型网站的数据,那是一件很费时费力的活.小白总遭遇过在趟过各种坑之前就被封 IP 或封账号的打击(呜呜~说的就是我). 不过有一些公司心怀开放互联的态度,友好地给大家提供了 api 接口.这一篇博客将以豆瓣电影为例记录如何站在巨人(api)的肩膀上获取数据.不过豆瓣 api 现在貌似也逐渐收起来了,api key 也停止申请了,且用且珍惜了. >>…
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写爬虫,但是不同语言的难易程度不同,Python作为一种解释型的胶水语言,上手简单.入门容易,标准库齐全,还有丰富的各种开源库,语言本身提供了很多提高开发效率的语法糖,开发效率高,总之“人生苦短,快用Python”(Life is short, you need Python!).在Web网站开发,科…