访问我的博客 前言 年前闲着无聊,研究了一阵子爬虫技术,接触到爬虫框架 WebMagic,感觉很好用. 在之后的工作中,接手了新站与第三方接口对接的工作,主要的工作是去抓取对方接口的内容:初始的时候,之前负责该工作的同事,是手动使用多线程去抓取,在应用的过程当中暴露了不少问题.比如对于接口内容超级多的时候,虽然使用了多线程,但是抓取的效率很低,而且也没有实现增量抓取,每次都需要去全量抓取,跑一次基本需要好几天-.-:小说是连载的情况下,这种问题是亟需解决的. 趁着熟悉了新兵器 WebMagic,…