一只简单的网络爬虫（基于linux C/C++）———

该爬虫的主事件流程大致如下：

1.获取命令行参数，执行相应操作

2.读取配置文件，解析得到各种设置

3.载入各种模块

4.种子入队，开启DNS解析线程（原始队列不为空时解析）

5.创建epoll，开启任务，发起请求等等，关注事件

6.while大循环中使用epoll_wait返回活跃的事件，每个事件开启一个线程处理（线程中主要是解析页面，保存页面，url处理等），在线程结束的时候可能会开启新的任务。

创建epoll

//创建epoll，参数为监听的数目(自从linux2.6.8之后，size参数是被忽略的)

    g_epfd = epoll_create(g_conf->max_job_num);

开始若干个任务，关注事件

while(ourl_num++ < g_conf->max_job_num)

    {

        if (attach_epoll_task() < 0)//执行epoll任务,如果中途遇到队列为空的情况就退出循环

            break;

    }

attach_epoll_task函数如下：

//开始一个epoll任务，建立连接还有就是关注事件

int attach_epoll_task()

{

    struct epoll_event ev;

    int sock_rv;

    int sockfd;

    Url * ourl = pop_ourlqueue();//从url队列取出一个url

    if (ourl == NULL)

    {

        SPIDER_LOG(SPIDER_LEVEL_WARN, "Pop ourlqueue fail!");

        return -1;

    }

    // connect socket and get sockfd

    //连接

    if ((sock_rv = build_connect(&sockfd, ourl->ip, ourl->port)) < 0)

    {

        SPIDER_LOG(SPIDER_LEVEL_WARN, "Build socket connect fail: %s", ourl->ip);

        return -1;

    }

    set_nonblocking(sockfd);//设定socket模式，非阻塞

    //发送请求

    if ((sock_rv = send_request(sockfd, ourl)) < 0)

    {

        SPIDER_LOG(SPIDER_LEVEL_WARN, "Send socket request fail: %s", ourl->ip);

        return -1;

    }

////保存触发事件的某个文件描述符相关的数据（与具体使用方式有关）

// typedef union epoll_data {

//     void *ptr;

//     int fd;

//     __uint32_t u32;

//     __uint64_t u64;

// } epoll_data_t;

//  //感兴趣的事件和被触发的事件

// struct epoll_event {

//     __uint32_t events; /* Epoll events */

//     epoll_data_t data; /* User data variable */

// };

    evso_arg * arg = (evso_arg *)calloc(1, sizeof(evso_arg));

    arg->fd = sockfd;

    arg->url = ourl;

    ev.data.ptr = arg;

    ev.events = EPOLLIN | EPOLLET;//边沿触发

    if (epoll_ctl(g_epfd, EPOLL_CTL_ADD, sockfd, &ev) == 0)//EPOLL_CTL_ADD注册事件

    {// add event

        SPIDER_LOG(SPIDER_LEVEL_DEBUG, "Attach an epoll event success!");

    }

    else

    {

        SPIDER_LOG(SPIDER_LEVEL_WARN, "Attach an epoll event fail!");

        return -1;

    }

    g_cur_thread_num++; //当前正在执行抓取的任务数(关注的事件数)

    return 0;

}

while大循环

……

……

……

 while(1)

    {

        n = epoll_wait(g_epfd, events, 10, 2000);//epoll将会把发生的事件赋值到events数组中,超时时间单位毫秒

        printf("epoll:%d\n",n);//打印活跃事件数

        if (n == -1)

            printf("epoll errno:%s\n",strerror(errno));

        fflush(stdout);

        if (n <= 0) //退出是在这里

        {//判断事件数，队列是否为空，为空退出

            if (g_cur_thread_num <= 0 && is_ourlqueue_empty() && is_surlqueue_empty())

            {

                sleep(1);

                if (g_cur_thread_num <= 0 && is_ourlqueue_empty() && is_surlqueue_empty())

                    break;

            }

        }

        for (i = 0; i < n; i++) //n为活跃的事件数

        {

            evso_arg * arg = (evso_arg *)(events[i].data.ptr);

            //发生错误，挂起，不是epollin事件

            if ((events[i].events & EPOLLERR) ||(events[i].events & EPOLLHUP) ||(!(events[i].events & EPOLLIN)))

            {

                SPIDER_LOG(SPIDER_LEVEL_WARN, "epoll fail, close socket %d",arg->fd);

                close(arg->fd);//关闭文件描述符

                continue;

            }

            //注销事件

            epoll_ctl(g_epfd, EPOLL_CTL_DEL, arg->fd, &events[i]); // del event  

            printf("hello epoll:event=%d\n",events[i].events);

            fflush(stdout);//清除读写缓冲区，需要立即把输出缓冲区的数据进行物理写入时

            //create_thread是自己封装的，在线程的头文件中

            //recv_response为回调函数

            //产生epollin事件就调用接收函数接收，产生一个线程处理任务

            create_thread(recv_response, arg, NULL, NULL);//创建线程处理

        }

    }

……

……

……

create_thread(recv_response, arg, NULL, NULL);该函数创建线程，在线程结束的时候会开启新的任务，将事件添加进epoll关注，epoll_wait返回后就注销事件，并创建新的线程去处理这个事件

注意下面的代码

 if (n <= 0) //退出是在这里

        {//判断事件数，队列是否为空，为空退出

            if (g_cur_thread_num <= 0 && is_ourlqueue_empty() && is_surlqueue_empty())

            {

                sleep(1);

                if (g_cur_thread_num <= 0 && is_ourlqueue_empty() && is_surlqueue_empty())

                    break;

            }

        }

满足处理的线程数小于等于0，或者两个队列都为空则会退出循环，程序也就此结束。

一只简单的网络爬虫（基于linux C/C++）————主事件流程的更多相关文章

一只简单的网络爬虫（基于linux C/C++）————开篇
最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...
一只简单的网络爬虫（基于linux C/C++）————浅谈并发（IO复用）模型
Linux常用的并发模型 Linux 下设计并发网络程序,有典型的 Apache 模型( Process Per Connection ,简称 PPC ), TPC ( Thread Per Conn ...
一只简单的网络爬虫（基于linux C/C++）————支持动态模块加载
插件在软件设计中有很大的好处,可以方便地扩展各种功能,使用插件技术能够在分析.设计.开发.项目计划.协作生产和产品扩展等很多方面带来好处: (1)结构清晰.易于理解.由于借鉴了硬件总线的结构,而且各个 ...
一只简单的网络爬虫（基于linux C/C++）————socket相关及HTTP
socket相关建立连接网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...
一只简单的网络爬虫（基于linux C/C++）————守护进程
守护进程,也就是通常说的Daemon进程,是Linux中的后台服务进程.它是一个生存期较长的进程,通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件.守护进程常常在系统引导装入时启动, ...
一只简单的网络爬虫（基于linux C/C++）————读取命令行参数及日志宏设计
linux上面的程序刚开始启动的时候一般会从命令行获取某些参数,比如以守护进程运行啊什么的,典型的例子就是linux下的man,如下图所示实现该功能可以使用getopt函数实现,该函数在头文件uni ...
一只简单的网络爬虫（基于linux C/C++）————利用正则表达式解析页面
我们向一个HTTP的服务器发送HTTP的请求后,服务器会返回可能一个HTML页面(当然也可以是其他的资源),我们可以利用返回的HTML页面,在其中寻找其他的Url,例如我们可以这样在浏览器上查看一下H ...
一只简单的网络爬虫（基于linux C/C++）————线程相关
爬虫里面采用了多线程的方式处理多个任务,以便支持并发的处理,把主函数那边算一个线程的话,加上一个DNS解析的线程,以及我们可以设置的max_job_num值,最多使用了1+1+max_job_num个 ...
一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析
Url处理爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...

随机推荐

python的int float if...else
# 字符串 string 单引号 ‘ ’ 双引号 “ ”-包含的 app = 'dongt woory' 外面单引号里面可以双引号,外面双引号,里面也可以单引号 app ='你是真的“好看”吗' ...
实时OLAP分析利器Druid介绍
文章目录前言 Druid介绍主要特性基础概念数据格式数据摄入数据存储数据查询查询类型架构运维 OLAP方案对比使用场景使用建议参考近期主题前言项目早期.数据(报表分析) ...
类文件右下角呈现红色小圆圈，里面有一个J 标记
intellj(idea) 项目中类文件右下角呈现红色小圆圈,里面有一个J 标记,表明此为未设置为源文件,没有编译,本来应该是属于源文件的,结果现在没有被标记为源文件,也就没法编译了.
AJ学IOS（51）多线程网络之GCD下载合并图片_队列组的使用
AJ分享,必须精品合并图片(图片水印)第一种方法效果实现: 思路: 1.分别下载2张图片:大图片.LOGO 2.合并2张图片 3.显示到一个imageView身上 // 异步下载 dispatc ...
L2 Softmax与分类模型
softmax和分类模型内容包含: softmax回归的基本概念如何获取Fashion-MNIST数据集和读取数据 softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集 ...
两种异常(CPU异常、用户模拟异常)的收集
Windows内核分析索引目录:https://www.cnblogs.com/onetrainee/p/11675224.html 两种异常(CPU异常.用户模拟异常)的收集文章的核心:异常收集 ...
Python爬虫---爬取腾讯动漫全站漫画
目录操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源网页代码下载漫画图片下载结果完整 ...
word2sequence 把字符串转换数字编码
地址:http://ai.stanford.edu/~amaas/data/sentiment/,这是一份包含了5万条流行电影的评论数据,其中训练集25000条,测试集25000条. 1.准备数据 d ...
Python数据分析入门与实践学习
pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程.pandas提供了快速,灵活和富有表现力的数据结构 ...
前端基础-HTML(2)
1. 什么是标签以及标签的分类: 在HTML页面中,带有“< >”符号的元素被称为HTML标签,如上节提到的 <HTML>.<head>.<body>都 ...

一只简单的网络爬虫（基于linux C/C++）————主事件流程

一只简单的网络爬虫（基于linux C/C++）————主事件流程的更多相关文章

随机推荐

热门专题