c++爬虫子
Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。
下图表示了一般爬虫抓取网页的基本过程。
抓取以/Larbin.conf中的startUrl做为种子URLs开始。
下面先来看用于处理url的类:
上面的类图只显示了url类可见的接口。除了基本的构造函数和私有变量的get函数,url类比较重要的函数是hashCode( ),其实现为:
/* return a hashcode for this url */
uinturl::hashCode () {
unsigned int h=port;
unsigned int i=0;
while (host[i] != 0) {
h = 31*h + host[i];
i++;
}
i=0;
while (file[i] != 0) {
h = 31*h + file[i];
i++;
}
return h % hashSize;
}
在全局变量Globle.h中,hashTable *seen用来表示抓取中出现过的URLs。按照Larbin的默认值hashSize为64,000,000,*seen是一个大小为8,000,000的char数组的hashTable结构,该char数组*table的每一个bit位可以代表一个出现过的URL。
这里使用的是一种叫做Bloom Filter的空间效率很高的随机数据结构。它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(falsepositive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。(关于Bloom Filter的介绍参考了Bloom Filter概念和原理和从哈希存储到Bloom Filter。)
设定*table数组bit位的函数实现如下:
/* add a newurl in the hashtable
* return true if it has been added
* return false if it has already been seen */
boolhashTable::testSet (url *U) {
unsigned int code = U->hashCode();
unsigned int pos = code / 8; //该URL的hashCode在table中的索引
unsigned int bits = 1 << (code % 8); //该hashCode在字节中的bit位
int res = table[pos] & bits; //判断对应bit位是否为1,为1时res为正数
table[pos] |= bits; //将对应bit位标记为1
return !res;
}
这里只使用了一个hash函数将URL映射到*table中的相应位。按照Bloom Filter的元素判断方法,当对应bit位为1时,表示该URL已经见过。
对于网页内容的简单去重使用的是hashDup *hDuplicate,hashDup这一结构同样基于BloomFilter,其相关实现为:
/*set a page in the hashtable
* return false if it was already there
* return true if it was not (ie it is new)*/
bool hashDup::testSet(char *doc) {
unsigned int code = 0;
char c;
for (uint i=0; (c=doc[i])!=0; i++) {
if (c>'A' && c<'z')
code = (code*23 + c) % size;
}
unsigned int pos = code / 8;
unsigned int bits = 1 << (code % 8);
int res = table[pos] & bits;
table[pos] |= bits;
return !res;
}
显然这里的网页内容去重过于简单,只能区分指向页面内容完全相同的不同链接。
为了分析和处理抓取回的网页和robot文件,Larbin中设计了file类, html类和robots类继承了file类。下面的类图显示了这几类的关系和相关函数。
html类中的inputHeaders()函数用于处理获得的网页文件的头部,包括链接、状态等。endInput函数调用其他私有函数进行一系列关于网页内容的分析和链接的提取管理操作。endInput先调用global::hDuplicate->testSet( )检测网页是否重复,再调用parseHtml()进行网页内容的分析。parseHtml( )中比较重要的是调用parseTag( )分析html标签,然后调用parseContent(action)针对标签内容进行URL的处理。parseContent(action)中调用了manageUrl( )函数,manageUrl( )调用/fetch/checker.cc中的check( )函数将URL的加入前端队列。
这些函数之间的调用关系可以在阅读源码时看到。此外,处理网页的模块还会用到一些文本操作函数,它们定义在/utils/text.h中,当然也需要url类中的相关处理函数。
接下来考虑larbin的URL队列管理。*global::URLsPriority和*global::URLsPriorityWait是用于特定类型文件下载时所需的队列,这里暂不考虑。Larbin用于一般爬取时主要用到的队列包括:
PersistentFifo*URLsDisk; //作为URL集合的前段队列,加入新的URL
PersistentFifo*URLsDiskWait; //提供对一定数量的前段URL的非阻塞访问,
//即当队列为空时不阻塞,而直接返回NULL
NamedSite *namedSiteList; //使用URL的hashCode为索引的已访问站点的大表,//维护各个站点的dns属性、对应站点待抓取URL队列
Fifo<IPSite>*okSites; //表示队列中存在已获得主机地址的站点的待抓取URL
Fifo<NamedSite>*dnsSites; //表示队列中存在可抓取的站点URL,但需要dns解析调用
NamedSite*namedSiteList是维护URL队列的重要数据结构。在larbin的默认设置中,它可以维护20000个站点的待抓取队列。NamedSite类的类图如下:
可以看出,NamedSite对每个站点维护着一个fifo队列。根据不同站点的dns状态,它使用newQuery()通过adns库建立新的dns异步解析服务(DNS服务模块使用了开源的adns库,http://www.chiark.greenend.org.uk/~ian/adns),同时可以通过putUrl()和putUrlWait( )来管理URL后端队列global::*okSites的URL添加。
至此,本文最开始的第一张爬虫结构图中的主要模块及实现均做了介绍。整合在一起如下图所示:
Larbin的运行过程可以描述如下:种子URL文件最初初始化*URLsDisk,读取到namedSiteList中,通过adns库调用,逐渐往Fifo<NamedSite> *dnsSites和Fifo<IPSite>*okSites内装入链接,而Fetch模块直接从Fifo<IPSite> *okSites中获得用于抓取的URL,为抓取到的网页建立hash表,以防止网页的重复抓取。然后通过html类的方法从下载到的网页中析取出新的URL,新加入前端队列的URL要求符合robots filter,并通过hash表对URL去重。一次抓取结束后进行相关的读写操作,然后通过poll函数选择适合的套接字接口,开始新的抓取。这样抓取就可以一直循环下去,直到用户终止或者发生中断。
Larbin更详细的实现和定制细节可参考源码注释。
参考资料:
1, 搜索引擎Larbin设计原理,http://blog.chinaunix.net/u/21158/showart_133214.html
2, Larbin中的队列结构,http://blog.chinaunix.net/u/21158/showart_1106639.html
3, Bloom Filter概念和原理,http://blog.csdn.net/jiaomeng/archive/2007/01/27/1495500.aspx
4, Larbin项目,http://larbin.sourceforge.net/index-eng.html
c++爬虫子的更多相关文章
- Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
- Java爬虫爬取网站电影下载链接
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...
- HDU 1049(蠕虫爬井 **)
题意是一只虫子在深度为 n 的井中,每分钟向上爬 u 单位,下一分钟会下滑 d 单位,问几分钟能爬出井. 本人是直接模拟的,这篇博客的分析比较好一些,应当学习这种分析问题的思路:http://www. ...
- Node.js爬虫实战 - 爬你喜欢的
前言 今天没有什么前言,就是想分享些关于爬虫的技术,任性.来吧,各位客官,里边请... 开篇第一问:爬虫是什么嘞? 首先咱们说哈,爬虫不是"虫子",姑凉们不要害怕. 爬虫 - 一种 ...
- Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
- 多线程爬坑之路-Thread和Runable源码解析之基本方法的运用实例
前面的文章:多线程爬坑之路-学习多线程需要来了解哪些东西?(concurrent并发包的数据结构和线程池,Locks锁,Atomic原子类) 多线程爬坑之路-Thread和Runable源码解析 前面 ...
- python爬取github数据
爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
- 安卓易学,爬坑不易——腾讯老司机的RecyclerView局部刷新爬坑之路
针对手游的性能优化,腾讯WeTest平台的Cube工具提供了基本所有相关指标的检测,为手游进行最高效和准确的测试服务,不断改善玩家的体验.目前功能还在免费开放中. 点击地址:http://wetest ...
- Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
随机推荐
- BZOJ 2561: 最小生成树【最小割/最大流】
Description 给定一个边带正权的连通无向图G=(V,E),其中N=|V|,M=|E|,N个点从1到N依次编号,给定三个正整数u,v,和L (u≠v),假设现在加入一条边权为L的边(u,v), ...
- 常见Bean映射工具分析评测及Orika介绍
原地址:http://tech.dianwoda.com/2017/11/04/gao-xing-neng-te-xing-feng-fu-de-beanying-she-gong-ju-orika/ ...
- idea与eclipse项目相互导入的过程
idea项目导出到桌面 很简单,直接去项目所在目录考出即可,但是考出的项目往往都特别大,这是因为考出之前 我们不要忘记把idea的输出目录删除 每次启动服务器运行idea项目的时候 都会有一个输出 ...
- 巴蜀4384 -- 【模拟试题】作诗(Poetize)
Description 神犇SJY虐完HEOI之后给傻×LYD出了一题:SHY是T国的公主,平时的一大爱好是作诗.由于时间紧迫,SHY作完诗之后还要虐OI,于是SHY找来一篇长度为N的文章,阅读M次, ...
- Linux中命令选项及参数简介
登录Linux后,我们就可以在#或$符后面去输入命令,有的时候命令后面还会跟着“选项”(英文options)或“参数”(英文arguments).即Linux中命令格式为: command [opti ...
- PHP 基础复习 2018-06-21
(1)PHP Zip File 函数 $zip = zip_open("test.zip"); if ($zip) { while ($zip_entry = zip_read($ ...
- oc温习七:结构体与枚举
结构体和枚举都是一种存储复杂的数据.结构体是用户自定义的一种类型,不同类型的集合. 1.结构体的创建及使用 定义结构体类型 struct MyDate { int year; int month; i ...
- Linux下异常信号
我们介绍一些标准信号的名称以及它们代表的事件.每一个信号名称是一个代表正整数的宏,但是你不要试图去推测宏代表的具体数值,而是直接使用名称.这是因为这个数值会随不同的系统或同样系统的不同版本而不同,但是 ...
- atomic原子操作
C++中对共享数据的存取在并发条件下可能会引起data race的未定义行为,需要限制并发程序以某种特定的顺序执行,有两种方式:1.使用mutex保护共享数据: 2.原子操作 原子操作:针对原子类型操 ...
- 【python】urllib2
urllib2.urlopen(url[, data][, timeout]) 请求url,获得请求数据,url参数可以是个String,也可以是个Request参数 没有data参数时为GET请求, ...