最近新项目准备启动，在开始前内容、词库这些都需要提前做好准备，所以就有了这篇文章。
在开始动手，看了下行业核心词排在首页的站，发现内容都多得不要不要的，各种乱七八糟的频道、页面模板，心想，如果每个网站、每套页面都写一套采集模板的话，那简直要累死。

所以，这次，玩点不一样的。

首先，根据需求，采集一个行业的文章内容，可以拆分为两个模块：

爬虫系统：主要负责在浩瀚的互联网上，找到有内容价值的页面并且把页面抓取回来。涉及到URL去重、爬虫策略深度、广度一些杂事。
内容处理系统：主要负责处理爬虫抓回来的内容，并从里面提取出内容。

正文提取

以前在用印象笔记的时候，自带的一些小插件就很好用，只需要在浏览器上点一个按钮，就会自动提取出当前网页的正方，并且保存到笔记库里面。
在网上找了下，发现已经有很多现成的解决方案了，而且解决的方案/算法也很有意思。就是基于DOM树来处理的。
凡是DOM节点 name 或ID带有article、content、body的，加权重值。
DOM节点name或ID带有foot、comment、menu……的，降权。
经过一轮遍历后，把得分最高的节点提取出来，作为页面正文所在的节点。
算法参考：python-readability
测试了下，识别率还是挺高的，80%以上的成功率应该有。

提取正文效果

抓取系统

爬虫制作上面，选择了一直以来，用的比较顺手的scrapy做框架，代码如下：

 1 # -- coding: utf-8 --

 2 import scrapy

 3 from scrapy import Request

 4 from scrapy.linkextractors import LinkExtractor

 5 from scrapy.spiders import CrawlSpider, Rule

 6

 7 class LinkSpider(CrawlSpider):

 8     name = 'link'

 9     alloweddomains =

10     starturls =

11     rules = (

12         Rule(LinkExtractor(allow=r'\.htm', deny='baidu\.com'), callback='parseitem', follow=True),

13     )

14

15     def startrequests(self):

16         keywords = open('keywords.txt').readlines()

17         baseurlbaidu = 'https://www.baidu.com/s?rn=50&tn=baidulocal&wd=0&pn=1'

18         for kw in keywords:

19             # 构造百度搜索结果页URL

20             for pn in range(0,700,50):

21                 yield Request(baseurlbaidu.format(kw,pn))

22

23     def parsestarturl(self, response):

24         """从种子页面提取URL作为初始链接"""

25         links = response.css('td.f a:first-childattr(href)').extract()

26         for link in links:

27             yield Request(url=link)

28

29     def parseitem(self, response):

30         """提取符合要求的网站内页"""

31         return response.url

代码有木有非常简单(滑稽)，种子页面是从百度搜索结果页开始的，为了减少网络请求次数，把百度结果页的网站数量从默认的10个，改成了50，同时使用了无广告版的百度，URL是没有经过加密的。

到这里，基本上一个简单的行业内容采集爬虫就完成了，随意测试了下scrapy的速度，发现在我的 I5机器上，每分钟可以抓3356个页面，这还只是单机单进程，鹅妹子嘤～～

参考资料：
如何实现有道云笔记的网页正文抓取功能？

使用scrapy搭建大型爬虫系统的更多相关文章

大型web系统数据缓存设计
1. 前言在高访问量的web系统中,缓存几乎是离不开的:但是一个适当.高效的缓存方案设计却并不容易:所以接下来将讨论一下应用系统缓存的设计方面应该注意哪些东西,包括缓存的选型.常见缓存系统的特点和数 ...
大型网站系统与Java中间件实践
大型网站系统与Java中间件实践(贯通分布式高并发高数据高访问量网站架构与实现之权威著作,九大一线互联网公司CTO联合推荐) 曾宪杰著 ISBN 978-7-121-22761-5 2014年4 ...
大型网站系统架构演化之路【mark】
前言一个成熟的大型网站(如淘宝.天猫.腾讯等)的系统架构并不是一开始设计时就具备完整的高性能.高可用.高伸缩等特性的,它是随着用户量的增加,业务功能的扩展逐渐演变完善的,在这个过程中,开发模式. ...
用python3.x与mysql数据库构建简单的爬虫系统（转）
这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言, ...
《大型网站系统与JAVA中间件实践》【PDF】下载
<大型网站系统与JAVA中间件实践>[PDF]下载链接: https://u253469.pipipan.com/fs/253469-230062557 内容简介到底是本什么书,拥有这样 ...
SLAM+语音机器人DIY系列：（五）树莓派3开发环境搭建——1.安装系统ubuntu_mate_16.04
摘要通过前面一系列的铺垫,相信大家对整个miiboo机器人的DIY有了一个清晰整体的认识.接下来就正式进入机器人大脑(嵌入式主板:树莓派3)的开发.本章将从树莓派3的开发环境搭建入手,为后续ros开 ...
大型web系统数据缓存设计-l转载
原文地址:http://www.wmyouxi.com/a/60368.html#ixzz3tGYG9JwC 1. 前言在高访问量的web系统中,缓存几乎是离不开的:但是一个适当.高效的缓存方案设计 ...
基于golang分布式爬虫系统的架构体系v1.0
基于golang分布式爬虫系统的架构体系v1.0 一.什么是分布式系统分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统.简单来说就是一群独立计算机 ...
搭建zabbix监控系统详解
搭建zabbix监控系统详解文:warren 博文大纲:一.前言二.zabbix监控架构三.搭建Zabbix监控服务器四.搭建过程中遇到有些服务无法正常启动的解决办法一.前言 : 要想实时的 ...

随机推荐

cos中的文件结构（DF/EF/MF/FID/AID/SFI..）
转载自:https://blog.csdn.net/Enjoy_endless/article/details/75108349 刚开始接触CPU卡的时候,对于各种文件.应用的定义容易模糊不清,通常不 ...
Java中对象调用方法的顺序
Java虚拟机会预先为加载到内存中的每个类维护一个方法表(Method Table),其中列出了所有类中所有方法的签名. 现在有2个类A和B,其中,B是A的子类,和一个B类型的对象x,当调用x.f(a ...
『心善渊』Selenium3.0基础 — 11、Selenium对元素常用操作
目录 1.Selenium对元素常用操作 2.Selenium对元素的其他操作 1.Selenium对元素常用操作操作说明 click() 单击元素 send_keys() 模拟输入 clear( ...
jwt-在asp.net core中的使用jwt
JWT学习文章: 第一篇:JWT原理第二篇:JWT原理实现代码第三篇:在asp.net core中的使用JWT 前两篇文章中我写了jwt的原理,并且也用原理实现了jwt的验证.如果要看前两篇文章, ...
R语言读取文件
1.R语言读取文件,文件类型为.txt 直接使用read.table()即可,若不知道当前的工作目录,可以使用函数getwd()来查看 2.R语言读取文件,文件类型为.xlsx 方法一:可以把excl ...
Java基础篇(JVM)——字节码详解
这是Java基础篇(JVM)的第一篇文章,本来想先说说Java类加载机制的,后来想想,JVM的作用是加载编译器编译好的字节码,并解释成机器码,那么首先应该了解字节码,然后再谈加载字节码的类加载机制似乎 ...
一QT获取当前时间和日期
获取日期和时间使用QDateTime类,该类中有一个静态成员函数可以返回当前的时间信息我们可以直接调用这个静态函数获取当前时间 QDateTime time = QDateTime::current ...
7、基本数据类型(tuple)
7.1.tuple类: 1.元组元素用小括号括起来,用逗号分割每个元素,一般写元组的时候,推荐在最后加入逗号,该逗号不占元素位置,目的是为了方便识别: tu = (111, "alex&q ...
《手把手教你》系列技巧篇（七）-java+ selenium自动化测试-宏哥带你全方位吊打Chrome启动过程（详细教程）
1.简介经过前边几篇文章和宏哥一起的学习,想必你已经知道了如何去查看Selenium相关接口或者方法.一般来说我们绝大多数看到的是已经封装好的接口,在查看接口源码的时候,你可以看到这个接口上边的注释 ...
form 向java控制类提交多表数据、提交list数组数据
案例:form中有三个表的数据,一个主表,两个子表 1.在主表model类添加对应子表数据集 2.界面上主表定义 3.控制类接收,直接用主表对象接收即可

使用scrapy搭建大型爬虫系统

正文提取

抓取系统

使用scrapy搭建大型爬虫系统的更多相关文章

随机推荐

热门专题