我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开发思想. 网络爬虫是搜索引擎的一个重要基本功能.由于互联网上的信息非常庞大,我们借助搜索引擎很容易得到自己需要的信息.搜索引擎首先需要一个信息采集系统,即网络爬虫,将互联网上的网页或其它信息收集到本地,然后对这些信息创建索引.当用户输入查询请求的时,先对用户的查询请求进行分析,然后在索引库中进行匹配…
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. robots.txt文件是一个文本文件.robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的. 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人…
高效的网络爬虫是搜索引擎的重要基础.采用多任务并发执行,实现类似于CPU的流水线(pipeline)运行方式,可极大地提高网络和计算资源的利用率等性能. #include "threads.h" #include "spider.h" #include "confparser.h" /* the number of current running thread */ int g_cur_thread_num = 0; /* lock for ch…
网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份. 一个通用的网络爬虫的框架如图所示:…
所有的URL都接受管理,并在此进行流动.URL从管理模块的存储空间开始,一直到最后输出给磁盘上的URL索引,都由此部分调度.首先,给出URL调度的一般过程,如图所示.其流程的各个具体操作,后面详述.要实现前面DNS的无重复有效请求,那么在这个部分里设置一个Nsite类,实现这样的功能:当一个站点请求过DNS后,就把返回的IP保存到这个类里,那么再有这个站点内的URL出现(域名部分相同),就可以使用这个IP,而不必重复请求.为了从一个URL中很快的找到其对应的Nsite还应该设置一个hash表,里…
为了验证爬虫的业务流程.性能和健壮性需要进行测试. 软件测试是描述一种用来促进鉴定软件的正确性.完整性.安全性和质量的过程.软件测试的经典定义是:在规定的条件下对程序进行操作,以发现程序错误,衡量软件质量,并对其是否能满足设计要求进行评估的过程. 软件测试的目的:(1)测试是为了发现程序中的错误而执行程序的过程.(2)好的测试方案是极可能发现迄今为止尚未发现的错误的测试方案.(3)成功的测试是发现了至今为止尚未发现的错误的测试.(4)测试并不仅仅是为了找出错误.通过分析错误产生的原因和错误的发生…
HTTP是一种很简单的请求.响应式协议,客户端发送一个请求.服务器返回一个响应.HTTP 1.1 版本规范由 RFC2616 定义.了解了 HTTP请求.响应消息在TCP数据流中的格式,很容易使用纯 socket 模拟HTTP客户端.HTTP服务器发送接收数据. RFC文档全是ASCII码,txt格式,但有其标准格式,用户可通过官方网站查阅(http://www.rfc-editor.org/),也可下载txt版本并使用阅读器(RFCReader.UE或写字板都可以,记事本打开时格式不规范,有网…
Socket是进程之间交换数据的机制.这些进程即可以是同一台机器上的,也可以是通过网络连接起来的不同机器.一旦一个Socket连接建立,那么数据就能够双向传输,直到其中一端关闭连接. 通常,请求数据的应用程序叫做客户端Client,而为请求服务叫做服务器Server.基本上说,首先,服务器监听一个端口,并且等待来自客户端的连接.之后客户端创建一个,并且尝试连接服务器.接着,服务器接受了来自客户端的连接,并且开始交换数据.一旦所有的数据都已经通过socket连接传输完毕,那么任意一方都可以关闭连接…
由于要实现爬虫程序的快速抓取,显然如果采用阻塞型的I/O方式,那么系统可能很长时间都处在等待内核响应的状态中,这样爬虫程序将大大地降低效率.然而,如果采用非阻塞I/O,那么就要一直调用应用进程,反复对内核进行轮询.为了实现发送出系统调用请求,而不必一直返回进行查询,最合适的方案应该是采用poll函数,对系统调用实行轮询,即I/O复用模式. epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并…
在linux或者unix操作系统中在系统的引导的时候会开启很多服务,这些服务就叫做守护进程.为了增加灵活性,root可以选择系统开启的模式,这些模式叫做运行级别,每一种运行级别以一定的方式配置系统. 守护进程是脱离于终端并且在后台运行的进程.守护进程脱离于终端是为了避免进程在执行过程中的信息在任何终端上显示并且进程也不会被任何终端所产生的终端信息所打断. 由于在Linux中,每一个系统与用户进行交流的界面称为终端,每一个从此终端开始运行的进程都会依附于这个终端,这个终端就称为这些进程的控制终端,…
网络抓取系统分为核心和扩展组件两部分.核心部分是一个精简的.模块化的爬虫实现,而扩展部分则包括一些便利的.实用性的功能.目标是尽量的模块化,并体现爬虫的功能特点.这部分提供简单.灵活的API,在基本不改变开发模式的情况下,编写一个爬虫. 扩展组件部分提供一些扩展的功能,内置了一些常用的组件,便于对爬虫进行功能扩展. 蜘蛛主要功能模块如下:…
与多线程和多进程相比,I/O多路复用的最大优势是系统开销小,系统不需要建立新的进程或者线程,也不必维护这些线程和进程. 主要应用: (1)客户程序需要同时处理交互式的输入和服务器之间的网络连接 (2)客户端需要对多个网络连接作出反应 (3)TCP服务器需要同时处理多个处于监听状态和多个连接状态的套接字 (4)服务器需要处理多个网络协议的套接字 (5)服务器需要同时处理不同的网络服务和协议 select()函数 #include <sys/time.h> int select(int nfds,…
软件项目开发中,一般会用到源代码管理工具SVN.版本控制是管理数据变更的一种技术.对于程序员来说,它已经成为不可或缺的工具,因为他们经常修改软件代码,产生部分的变更,然后第二天再取消所有的变更.想象有一群程序员同时工作的情况你就能理解,为什么需要一个良好的系统来管理可能出现的混乱. TortoiseSVN 是 Subversion 版本控制系统的一个免费开源客户端,可以超越时间的管理文件和目录.文件保存在中央版本库,除了能记住文件和目录的每次修改以外,版本库非常像普通的文件服务器.你可以将文件恢…
在垂直搜索的索引建立之前,我们需要到垂直网站上抓取资源并做一定的处理.垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引.而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范(否则用户体验也是个灾难,想想东一篇文章西一篇文章基本没人会喜欢),并且垂直搜索往往只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫更加精确.垂直爬虫爬取资源步骤:首先选定需要抓取的目标网站,输入数据库的站源表siteli…
为了方便我们爬虫功能的扩展,最好使用插件机制.使用插件技术能够在分析.设计.开发.项目计划.协作生产和产品扩展等很多方面带来好处:(1)结构清晰.易于理解.由于借鉴了硬件总线的结构,而且各个插件之间是相互独立的,所以结构非常清晰也更容易理解.(2)易修改.可维护性强.由于插件与宿主程序之间通过接口联系,就像硬件插卡一样,可以被随时删除,插入和修改,所以结构很灵活,容易修改,方便软件的升级和维护.(3)可移植性强.重用力度大.因为插件本身就是由一系列小的功能结构组成,而且通过接口向外部提供自己的服…
在爬虫系统中数据的流量相当大,要处理的数据内容不仅包括爬虫系统的各种数据结构空间,而且包括从外部节点中得到的各种数据,比如HTTP请求,HTML页面,ROBOT.TXT等等.如果对这些内容处理不当,那么不仅造成空间的冗余浪费,使爬虫程序效率降低,而且还可能会使系统崩溃.所以,要有合适的空间分配策略.空间分配与管理方案.在内存中使用缓冲空间,以快速的得到.存储数据.统一各种请求的结构,应该合理利用并在每次用完后进行回收.比如,ROBOT.TXT文件,HTTP请求头及相应的应答.这种方式,在站点数目…
用http传输二进制的数据时,需要将二进制做一下转化,例如传输的int类型,将int类型之间转为char以后,丢失掉了长度的信息,如数字123456,本来只有4个字节,但是转化成文本的"123456"是有7个字节.在int类型的时候固然好办,但是一个数组的时候,经过转化以后,在转化回来就很麻烦了.同时对于一些数字,二进制传输Server是没法处理的.如int 1,二进制数据是0x00000001,按字节传输的时候,client能够正常发送,但是libevent收到以后,在抛给libev…
基本URL包含模式(或称协议).服务器名称(或IP地址).路径和文件名,如"协议://授权/路径?查询".完整的.带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志爬虫系统要处理的URL是指使用超文本传输协议HTTP的URL.URL分为绝对URL和相对URL绝对URL显示文件的完整路径,这意味着绝对URL本身所在的位置与被引用的实际文件的位置无关.相对URL以包含URL本身的文件夹的位置为参考点…
URL是Uniform Resource Location的缩写,译为"统一资源定位符".也可以说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上.采用URL可以用一种统一的格式来描述各种信息资源,包括文件.服务器的地址和目录等.URL的格式由三部分组成:第一部分是协议(或称为服务方式).第二部分是存有该资源的主机IP地址,包括端口号,默认为80.第三部分是主机资源的具体地址,即目录和文件名.爬虫系统要处理的URL在这里,爬虫系统要处理的U…
DNS 是Domain Name Service的缩写.域名系统为Internet上的主机分配域名地址和IP地址.IP地址不易于记忆,然而域名地址相比较而言是方便于记忆的.用户如果使用域名地址,当想获得IP地址时,就要向域名服务器发送请求.这个域名服务器就会自动把域名地址转为IP地址返回给用户.爬虫程序优化DNS请求的必要性当爬虫程序从HTML页面上提取URL时,一般情况下,应该有很多都是这个站点内部的URL.那么当这个站点里的某个URL请求过DNS以后,就应该采用某种数据结构把这个值保存起来.…
配置文件在Linux下使用得非常普遍,但是Linux下没有统一个配置文件标准. 我们把配置文件的规则制定如下: 1.把"#"视作注释开始 2.所有的配置项都都是以键值对的形式出现 3.严格区分大小写 4.允许数据类型为整型的配置项 5.允许数据类型为字符串类型的配置项 6.允许数据类型为逻辑型的配置项,取值为yes或者no. 同时我们需要对配置文件做初始化和载入两个操作. 代码如下: /* confparser.c*/ #ifndef CONFPARSER_H #define CONF…
一旦有一个抓取请求开始,就创建一个新的线程,由该线程执行任务,任务执行完毕之后,线程就退出.这就是"即时创建,即时销毁"的策略.尽管与创建进程相比,创建线程的时间已经大大的缩短,但是如果提交给线程的任务是执行时间较短,而且执行次数非常频繁,那么服务器就将处于一个不停的创建线程和销毁线程的状态.这笔开销是不可忽略的,尤其是线程执行的时间非常非常短的情况. 线程池就是为了解决上述问题的,它的实现原理是这样的:在应用程序启动之后,就马上创建一定数量的线程,放入空闲的队列中.这些线程都是处于阻…
需求:1.可通过 service spider start|stop|status|restart 命令对服务进行控制2.spider服务可开机自启动 start() { echo "start spider" /home/projects/spider/spider -d & exit 0; } stop() { echo -n "stop spider" if pkill spider then echo " [ok]" else e…
HTTP协议支持文本和二进制文件传输.最常见的html格式的页面即文本,图片.音乐等为二进制文件.我们要对这两类文件加以区分并分别处理. static char * BIN_SUFFIXES = ".jpg.jpeg.gif.png.ico.bmp.swf"; static int is_bin_url(char *url) { char *p = NULL; if ((p = strrchr(url, '.')) != NULL) { if (strstr(BIN_SUFFIXES,…
正则表达式,又称正规表示法.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念.正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本.正则引擎主要可以分为两大类:一种是DFA,一种是NFA.这两种引擎都有了很久的历史(至今二十多年),当中也由这两种引擎产生了很多变体!于是POSIX的出台产生规范了不必要变体的继续产生.这样一来,主流的…
User Agent即用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA.它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本.操作系统及版本.浏览器内核.等信息的标识.通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计.浏览器的UA字串的标准格式:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息.但各个浏览器有所不同.字串说明:1.浏览器标识出于兼容及推广等目的,很多浏览器…
Web服务器的HTTP应答一般由以下几项构成:一个状态行,一个或多个应答头,一个空行,内容文档.设置HTTP应答头往往和设置状态行中的状态代码结合起来.例如,有好几个表示"文档位置已经改变"的状态代码都伴随着一个Location头,而401(Unauthorized)状态代码则必须伴随一个WWW-Authenticate头.然而,即使在没有设置特殊含义的状态代码时,指定应答头也是很有用的.应答头可以用来完成:设置Cookie,指定修改日期,指示浏览器按照指定的间隔刷新页面,声明文档的长…
http请求头,HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST).如有必要,客户程序还可以选择发送其他的请求头.HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST).如有必要,客户程序还可以选择发送其他的请求头.大多数请求头并不是必需的,但Content-Length除外.对于POST请求来说Content-Length必须出现. 下面是一些最常见的请HTTP请求头概述 Accept:浏览器可接受的M…
HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码.所有状态码的第一个数字代表了响应的五种状态之一.他们分别是:消息(1字头)成功(2字头)这一类型的状态码,代表请求已成功被服务器接收.理解.并接受.重定向(3字头)这类状态码代表需要客户端采取进一步的操作才能完成请求.通常,这些状态码用来重定向,后续的请求地址(重定向目标)在本次响应的 Location 域中指明.请求错误(4字头)这类的状态码代表了客户端看起来可能发生了错误,妨碍了服务器的处理…
当我们设计好程序框架之后就要开始实现它了.第一步当然是要实现主程序的流程框架.之后我们逐渐填充每个流程的细节和其需要调用的模块. 主程序的流程如下: 1.  解析命令行参数,并根据参数跳转到相应的处理分支 2.  解析配置文件 3.  载入处理模块 4.  加载种子URL 5.  启动抓取任务 主程序的代码如下: int main(int argc, void *argv[]) { struct epoll_event events[10]; int daemonized = 0; char c…