最近新项目准备启动,在开始前内容.词库这些都需要提前做好准备,所以就有了这篇文章.在开始动手,看了下行业核心词排在首页的站,发现内容都多得不要不要的,各种乱七八糟的频道.页面模板,心想,如果每个网站.每套页面都写一套采集模板的话,那简直要累死. 所以,这次,玩点不一样的. 首先,根据需求,采集一个行业的文章内容,可以拆分为两个模块: 爬虫系统:主要负责在浩瀚的互联网上,找到有内容价值的页面并且把页面抓取回来.涉及到URL去重.爬虫策略深度.广度一些杂事. 内容处理系统:主要负责处理爬虫抓回来的内…