最近工作主要是一些爬虫相关的东西,由于公司需要构建自己的爬虫框架,在调研过程中参考了许多优秀的开源作品,包括webmagic,webcollector,Spiderman等,通过学习这些优秀的源码获益良多. webmagic是一个简单灵活的爬虫框架.基于WebMagic,你可以快速开发出一个高效.易维护的爬虫.(官网地址:http://webmagic.io/) 本篇是webmagic源码阅读第一篇,主要探讨webmagic的核心机制,即一个BFS的爬虫是如何构建出来的. webmagic分为以…