Linux企业级项目实践之网络爬虫（26）—

一旦有一个抓取请求开始，就创建一个新的线程，由该线程执行任务，任务执行完毕之后，线程就退出。这就是"即时创建，即时销毁"的策略。尽管与创建进程相比，创建线程的时间已经大大的缩短，但是如果提交给线程的任务是执行时间较短，而且执行次数非常频繁，那么服务器就将处于一个不停的创建线程和销毁线程的状态。这笔开销是不可忽略的，尤其是线程执行的时间非常非常短的情况。

线程池就是为了解决上述问题的，它的实现原理是这样的：在应用程序启动之后，就马上创建一定数量的线程，放入空闲的队列中。这些线程都是处于阻塞状态，这些线程只占一点内存，不占用CPU。当任务到来后，线程池将选择一个空闲的线程，将任务传入此线程中运行。当所有的线程都处在处理任务的时候，线程池将自动创建一定的数量的新线程，用于处理更多的任务。执行任务完成之后线程并不退出，而是继续在线程池中等待下一次任务。当大部分线程处于阻塞状态时，线程池将自动销毁一部分的线程，回收系统资源。

下面是通过一个线程池的实现，来解决多任务抓取问题。

处理流程如下：

程序启动之前，初始化线程池，启动线程池中的线程，由于还没有任务到来，线程池中的所有线程都处在阻塞状态，当一有任务到达就从线程池中取出一个空闲线程处理，如果所有的线程都处于工作状态，就添加到队列，进行排队。如果队列中的任务个数大于队列的所能容纳的最大数量，那就不能添加任务到队列中，只能等待队列不满才能添加任务到队列中。

struct job

{

   void* (*callback_function)(void *arg);   //线程回调函数

   void *arg;                               //回调函数参数

   struct job *next;

};

struct threadpool

{

   int thread_num;                  //线程池中开启线程的个数

   int queue_max_num;               //队列中最大job的个数

   struct job *head;                //指向job的头指针

   struct job *tail;                //指向job的尾指针

   pthread_t *pthreads;             //线程池中所有线程的pthread_t

   pthread_mutex_t mutex;            //互斥信号量

   pthread_cond_t queue_empty;      //队列为空的条件变量

   pthread_cond_t queue_not_empty;  //队列不为空的条件变量

   pthread_cond_t queue_not_full;   //队列不为满的条件变量

   int queue_cur_num;               //队列当前的job个数

   int queue_close;                 //队列是否已经关闭

   int pool_close;                  //线程池是否已经关闭

};

struct threadpool* threadpool_init(intthread_num, int queue_max_num)

{

   struct threadpool *pool = NULL;

   do

    {

       pool = malloc(sizeof(struct threadpool));

       if (NULL == pool)

       {

           printf("failed to malloc threadpool!\n");

           break;

       }

       pool->thread_num = thread_num;

       pool->queue_max_num = queue_max_num;

       pool->queue_cur_num = 0;

       pool->head = NULL;

       pool->tail = NULL;

       if (pthread_mutex_init(&(pool->mutex), NULL))

       {

           printf("failed to init mutex!\n");

           break;

       }

       if (pthread_cond_init(&(pool->queue_empty), NULL))

       {

           printf("failed to init queue_empty!\n");

           break;

       }

       if (pthread_cond_init(&(pool->queue_not_empty), NULL))

       {

           printf("failed to init queue_not_empty!\n");

           break;

       }

       if (pthread_cond_init(&(pool->queue_not_full), NULL))

       {

           printf("failed to init queue_not_full!\n");

           break;

       }

       pool->pthreads = malloc(sizeof(pthread_t) * thread_num);

       if (NULL == pool->pthreads)

       {

           printf("failed to malloc pthreads!\n");

           break;

       }

       pool->queue_close = 0;

       pool->pool_close = 0;

       int i;

       for (i = 0; i < pool->thread_num; ++i)

       {

           pthread_create(&(pool->pthreads[i]), NULL, threadpool_function,(void *)pool);

       }

       return pool;

    }while (0);

   return NULL;

}

int threadpool_add_job(struct threadpool*pool, void* (*callback_function)(void *arg), void *arg)

{

   assert(pool != NULL);

   assert(callback_function != NULL);

   assert(arg != NULL);

   pthread_mutex_lock(&(pool->mutex));

   while ((pool->queue_cur_num == pool->queue_max_num) &&!(pool->queue_close || pool->pool_close))

    {

       pthread_cond_wait(&(pool->queue_not_full),&(pool->mutex));   //队列满的时候就等待

    }

   if (pool->queue_close || pool->pool_close)    //队列关闭或者线程池关闭就退出

    {

       pthread_mutex_unlock(&(pool->mutex));

       return -1;

    }

   struct job *pjob =(struct job*) malloc(sizeof(struct job));

   if (NULL == pjob)

    {

       pthread_mutex_unlock(&(pool->mutex));

       return -1;

    }

   pjob->callback_function = callback_function;

   pjob->arg = arg;

   pjob->next = NULL;

   if (pool->head == NULL)

    {

       pool->head = pool->tail = pjob;

       pthread_cond_broadcast(&(pool->queue_not_empty));  //队列空的时候，有任务来时就通知线程池中的线程：队列非空

    }

   else

    {

       pool->tail->next = pjob;

       pool->tail = pjob;

    }

   pool->queue_cur_num++;

   pthread_mutex_unlock(&(pool->mutex));

   return 0;

}

void* threadpool_function(void* arg)

{

   struct threadpool *pool = (struct threadpool*)arg;

   struct job *pjob = NULL;

   while (1)  //死循环

    {

       pthread_mutex_lock(&(pool->mutex));

       while ((pool->queue_cur_num == 0) &&!pool->pool_close)   //队列为空时，就等待队列非空

       {

           pthread_cond_wait(&(pool->queue_not_empty),&(pool->mutex));

       }

       if (pool->pool_close)   //线程池关闭，线程就退出

       {

           pthread_mutex_unlock(&(pool->mutex));

           pthread_exit(NULL);

       }

       pool->queue_cur_num--;

       pjob = pool->head;

       if (pool->queue_cur_num == 0)

       {

           pool->head = pool->tail = NULL;

       }

       else

       {

           pool->head = pjob->next;

       }

       if (pool->queue_cur_num == 0)

       {

           pthread_cond_signal(&(pool->queue_empty));        //队列为空，就可以通知threadpool_destroy函数，销毁线程函数

       }

       if (pool->queue_cur_num == pool->queue_max_num - 1)

       {

           pthread_cond_broadcast(&(pool->queue_not_full));  //队列非满，就可以通知threadpool_add_job函数，添加新任务

       }

       pthread_mutex_unlock(&(pool->mutex));

       (*(pjob->callback_function))(pjob->arg);   //线程真正要做的工作，回调函数的调用

       free(pjob);

       pjob = NULL;

    }

}

int threadpool_destroy(struct threadpool*pool)

{

   assert(pool != NULL);

   pthread_mutex_lock(&(pool->mutex));

   if (pool->queue_close || pool->pool_close)   //线程池已经退出了，就直接返回

    {

       pthread_mutex_unlock(&(pool->mutex));

       return -1;

    }

   pool->queue_close = 1;       //置队列关闭标志

   while (pool->queue_cur_num != 0)

    {

       pthread_cond_wait(&(pool->queue_empty), &(pool->mutex));  //等待队列为空

   }   

   pool->pool_close = 1;      //置线程池关闭标志

   pthread_mutex_unlock(&(pool->mutex));

   pthread_cond_broadcast(&(pool->queue_not_empty));  //唤醒线程池中正在阻塞的线程

   pthread_cond_broadcast(&(pool->queue_not_full));   //唤醒添加任务的threadpool_add_job函数

   int i;

   for (i = 0; i < pool->thread_num; ++i)

    {

       pthread_join(pool->pthreads[i], NULL);    //等待线程池的所有线程执行完毕

    }

   pthread_mutex_destroy(&(pool->mutex));          //清理资源

   pthread_cond_destroy(&(pool->queue_empty));

   pthread_cond_destroy(&(pool->queue_not_empty));

   pthread_cond_destroy(&(pool->queue_not_full));

   free(pool->pthreads);

   struct job *p;

   while (pool->head != NULL)

    {

       p = pool->head;

       pool->head = p->next;

       free(p);

    }

   free(pool);

   return 0;

}

Linux企业级项目实践之网络爬虫（26）——线程池的更多相关文章

Linux企业级项目实践之网络爬虫（1）——项目概述及准备工作
我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开 ...
Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
Linux企业级项目实践之网络爬虫（21）——扩展为多任务爬虫
高效的网络爬虫是搜索引擎的重要基础.采用多任务并发执行,实现类似于CPU的流水线(pipeline)运行方式,可极大地提高网络和计算资源的利用率等性能. #include "threads. ...
Linux企业级项目实践之网络爬虫（2）——网络爬虫的结构与工作流程
网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份. 一个通用的网络爬虫的框架如图所示:
Linux企业级项目实践之网络爬虫（23）——系统测试：找出系统中的bug
为了验证爬虫的业务流程.性能和健壮性需要进行测试. 软件测试是描述一种用来促进鉴定软件的正确性.完整性.安全性和质量的过程.软件测试的经典定义是:在规定的条件下对程序进行操作,以发现程序错误,衡量软件 ...
Linux企业级项目实践之网络爬虫（30）——通过查阅RFC文档扩充更加复杂的功能
HTTP是一种很简单的请求.响应式协议,客户端发送一个请求.服务器返回一个响应.HTTP 1.1 版本规范由 RFC2616 定义.了解了 HTTP请求.响应消息在TCP数据流中的格式,很容易使用纯 ...
Linux企业级项目实践之网络爬虫（28）——爬虫socket处理
Socket是进程之间交换数据的机制.这些进程即可以是同一台机器上的,也可以是通过网络连接起来的不同机器.一旦一个Socket连接建立,那么数据就能够双向传输,直到其中一端关闭连接. 通常,请求数据的 ...
Linux企业级项目实践之网络爬虫（19）——epoll接口
由于要实现爬虫程序的快速抓取,显然如果采用阻塞型的I/O方式,那么系统可能很长时间都处在等待内核响应的状态中,这样爬虫程序将大大地降低效率.然而,如果采用非阻塞I/O,那么就要一直调用应用进程,反复对 ...
Linux企业级项目实践之网络爬虫（6）——将程序设计成为守护进程
在linux或者unix操作系统中在系统的引导的时候会开启很多服务,这些服务就叫做守护进程.为了增加灵活性,root可以选择系统开启的模式,这些模式叫做运行级别,每一种运行级别以一定的方式配置系统. ...

随机推荐

AFNetworking (3.1.0) 源码解析 <三>
今天要介绍的是Reachability文件夹下的AFNetworkReachabilityManager类.通过字面意思我们就可以知道AFNetworkReachabilityManager是用来监测 ...
加入gitignore文件没有起作用怎么办
步骤一: 假设有未提交的文件先提交到Git. 步骤二: 在Git根文件夹下运行以下的Git命令: git rm -r --cached . git add . git commit -m " ...
SlidingMenu导入编译用法--Eclipse和IDEA
非常多側滑的应用都用的是开源库SlidingMenu, 效果不错,下面是我用上的效果图,因为近期换成了IDEA(IntelliJ)编辑器,昨天上网找了全部的教程都是关于在Eclipse导入的方法,摸索 ...
C++[类设计] ini配置文件读写类config
//in Config.h #pragma once #include <windows.h> #include <shlwapi.h> #pragma comment(l ...
[转] Ubuntu 12.04下LAMP安装配置 (Linux+Apache+Mysql+PHP)
我是一个Linux新手,想要安装一台Ubuntu 12.04版的Linux服务器,用这台服务器上的LAMP套件来运行我自己的个人网站.LAMP套件就是 “Linux+Apache+Mysql+PHP这 ...
配置Android开发环境
1.下载JAVASE http://www.oracle.com/technetwork/java/javase/downloads/index.html 根据自己系统选择JAVASE版本 2.下载A ...
css中的垂直居中方法
单行文字 (外行高度固定) line-height 行高, 将line-height值与外部标签盒子的高度值设置成一致就可以了. height:3em; line-height:3em; 多行文字图 ...
java中的异常机制（编译时异常）
/ * 1 异常机制的原理 * 异常是什么:就是错误的另外一种说法; * 在java中,有一个专门模拟所有异常的类,所有的异常都必须继承这个类:Throwable; * 本质是:当程序出错以后,jvm ...
Wpf解决TextBox文件拖入问题、拖放问题
在WPF中,当我们尝试向TextBox中拖放文件,从而获取其路径时,往往无法成功(拖放文字可以成功).造成这种原因关键是WPF的TextBox对拖放事件处理机制的不同, 解放方法如下: 使用Previ ...
BOM和DOM的联系和区别
BOM中的对象 Window对象: 是整个BOM的核心,所有对象和集合都以某种方式回接到window对象.Window对象表示整个浏览器窗口,但不必表示其中包含的内容. Document对象: 实际上 ...

Linux企业级项目实践之网络爬虫（26）——线程池

Linux企业级项目实践之网络爬虫（26）——线程池的更多相关文章

随机推荐

热门专题