目录 需要用的module 单页测试 批量抓取 数据保存 背景说明 因为加入cnblog不久,发现上面有很多优秀的文章. 无意中发现cnblog有整理文章的收藏排行榜,也就是热门文摘. 不过有点坑的是,这个页面不支持搜索,所以就写一个简单的脚本把这些热门文章理出来. 整个爬虫的思路: 确定页面的接口,一般常见的格式是html或者json格式: 确定页面迭代变量,找到page_index 对单页进行测试,包括header信息的配置,以及所需字段的提取: 对第3步中的代码进行封装,放到循环内执行:…