通过curl模拟多线程抓取网页(curl_multi

　　curl请求多个url，以前都是使用循环来处理。最近发现可以通过curl_multi_*系列函数来模拟多线程。比对一下，发现如果请求的url只有几个，2种方案耗时差不多，但是url比较多，差距就非常明显了。

　　先来看下使用for循环的方案:　

 <?php

 //for循环　基础方案

 $start = microtime(true);

 header('Content-type:text/html;charset=utf-8');

 $arrs = [

     'https://www.yahoo.com/',

     'http://www.jtthink.com/',

     'https://www.hao123.com/',

     'http://www.cnblogs.com/loveyouyou616/',

     'http://www.qq.com/',

     'http://www.sina.com.cn/',

     'http://www.163.com/',

     'https://www.yahoo.com/',

     'http://www.jtthink.com/',

     'https://www.hao123.com/',

     'http://www.cnblogs.com/loveyouyou616/',

     'http://www.qq.com/',

     'http://www.sina.com.cn/',

     'http://www.163.com/',

     'https://www.yahoo.com/',

     'http://www.jtthink.com/',

     'https://www.hao123.com/',

     'http://www.cnblogs.com/loveyouyou616/',

     'http://www.qq.com/',

     'http://www.sina.com.cn/',

     'http://www.163.com/'

 ];

 $headers = array(

     'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36',

 );

 $mh = curl_multi_init();

 foreach ($arrs as $i=>$url){

     $ch = curl_init($url);

     curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

     curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);

     curl_setopt($ch, CURLOPT_HEADER, 0);

     curl_setopt($ch, CURLOPT_TIMEOUT, 20);

     if (strpos($url,'https')){

         curl_setopt ( $ch, CURLOPT_SSL_VERIFYPEER, false );

         curl_setopt ( $ch, CURLOPT_SSL_VERIFYHOST, 2 );

     }

     $con = curl_exec($ch);

     curl_close($ch);

     var_dump($con);

 }

 $end = microtime(true) - $start;

 echo '<br/>';

 echo $end;  //平均19.002983093262s

　　接下来使用curl_multi_* 一次发送多个url请求

 <?php

 //此模型虽然是一次多个url请求，但缺陷是 要等所有数据请求结束一起返回，才能逐个处理数据。

 $start = microtime(true);

 header('Content-type:text/html;charset=utf-8');

 $arrs = [

     'https://www.yahoo.com/',

     'http://www.jtthink.com/',

     'https://www.hao123.com/',

     'http://www.cnblogs.com/loveyouyou616/',

     'http://www.qq.com/',

     'http://www.sina.com.cn/',

     'http://www.163.com/',

     'https://www.yahoo.com/',

     'http://www.jtthink.com/',

     'https://www.hao123.com/',

     'http://www.cnblogs.com/loveyouyou616/',

     'http://www.qq.com/',

     'http://www.sina.com.cn/',

     'http://www.163.com/',

     'https://www.yahoo.com/',

     'http://www.jtthink.com/',

     'https://www.hao123.com/',

     'http://www.cnblogs.com/loveyouyou616/',

     'http://www.qq.com/',

     'http://www.sina.com.cn/',

     'http://www.163.com/'

 ];

 $headers = array(

     'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36',

 );

 $mh = curl_multi_init();

 foreach ($arrs as $i=>$url){

     $conn[$i] = curl_init($url);

     curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,1);

     curl_setopt($conn[$i], CURLOPT_HTTPHEADER,$headers);

     curl_setopt($conn[$i], CURLOPT_HEADER, 0);

     curl_setopt($conn[$i], CURLOPT_TIMEOUT, 20);

     if (strpos($url,'https')){

         curl_setopt ( $conn[$i], CURLOPT_SSL_VERIFYPEER, false );

         curl_setopt ( $conn[$i], CURLOPT_SSL_VERIFYHOST, 2 );

     }

     curl_multi_add_handle($mh,$conn[$i]);

 }

 $active = null;

 /*

  * 这样写会轻易导致CPU占用100%

 do {

     $n=curl_multi_exec($mh,$active);

 } while ($active);

  *

  */

 //改写

 /*

 do {

     $mrc = curl_multi_exec($mh,$active);

 }while($mrc == CURLM_CALL_MULTI_PERFORM);

 while ($active and $mrc == CURLM_OK){

     if (curl_multi_select($mh) != -1) {

         do {

             $mrc = curl_multi_exec($mh, $active);

         } while ($mrc == CURLM_CALL_MULTI_PERFORM);

     }

 }

 */

 //最简单方案

 do {

     curl_multi_exec($mh, $running);

     curl_multi_select($mh);

 } while ($running > 0);

 //获取内容

 foreach ($arrs as $i => $url) {

     $res[$i]=curl_multi_getcontent($conn[$i]);

     var_dump($res[$i]);

     curl_close($conn[$i]);

     //等待所有http请求结束返回数据依次生成文件。

     file_put_contents('curl_multi.log',$res[$i]."\r\n\r\n\r\n\r\n",FILE_APPEND);

 }

 $end = microtime(true) - $start;

 echo '<br/>';

 echo $end; // 平均 10.091157913208s

　　执行上面２段代码，可以发现使用curl_multi_*系列函数来处理，效率明显高不少。

　　但是上面的模型也存在一个问题，返回的时间依赖最长的请求，通俗的说就是结果数据要等所有http请求结束后一起返回，然后逐个处理数据。

通过curl模拟多线程抓取网页(curl_multi_*)的更多相关文章

curl模拟多线程抓取网页(优化)
通过上篇文章清楚了通过curl_multi_*函数可以一次请求多个url,但是也留下了问题,就是结果要等所有数据请求结束一起返回,才能逐个处理数据.优化代码,使先成功请求的url先返回处理结果,而不是 ...
PHP利用Curl实现多线程抓取网页和下载文件
PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery ...
php curl_multi系列函数实现多线程抓取网页
最近几天在做一个多搜索引擎关键字排名查询工具,用于及时方便的了解关键词在各大搜索引擎的排名. 在抓取360搜索的时候,发现360搜索每页只支持显示10个搜索结果,如果想获取100个搜索结果数据,就得搜 ...
PHP的cURL库：抓取网页，POST数据及其他,HTTP认证抓取数据
From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...
HttpClient（二）-- 模拟浏览器抓取网页
一.设置请求头消息 User-Agent模拟浏览器 1.当使用第一节的代码来访问推酷的时候,会返回给我们如下信息: 网页内容:<!DOCTYPE html> <html> ...
php curl多线程抓取网页
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需要借助Cu ...
简单的使用php多线程抓取网页
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需要借助Cu ...
使用PHP curl模拟浏览器抓取网站信息
curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER ...
linux中使用wget模拟爬虫抓取网页
如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的这两个系统总是找不到相应的工具,这时wget出来帮助你啦!!!wget本身是拿来下载 ...

随机推荐

tensorflow中协调器 tf.train.Coordinator 和入队线程启动器 tf.train.start_queue_runners
TensorFlow的Session对象是支持多线程的,可以在同一个会话(Session)中创建多个线程,并行执行.在Session中的所有线程都必须能被同步终止,异常必须能被正确捕获并报告,会话终止 ...
伴随我整十个年头的校内网，现名人人网，是不是要shut down 了
如题: 每天我都习惯性的登录人人网,虽然现在基本上已经看不到曾经的同学上线了,不过我还是有事没事的往上面post 一些出行的照片,没事无聊的时候上这个网上看看自己曾经的照片,虽然已经无人在线,但是自己 ...
20155315 2016-2017-2 《Java程序设计》第八周学习总结
教材学习内容总结第14章 NIO与NIO2 1.认识NIO NIO使用频道(Channel)来衔接数据节点,在处理数据时,NIO可以让你设定缓冲区(Buffer)容量,在缓冲区中对感兴趣的数据区块进 ...
Diffie-Hellman 算法
Diffie-Hellman 算法描述: 目前被许多商业产品交易采用. HD 算法为公开的密钥算法,发明于1976年.该算法不能用于加密或解密,而是用于密钥的传输和分配. DH 算法的安全性 ...
chaos-engineering 的一些开源工具
Chaos Monkey - A resiliency tool that helps applications tolerate random instance failures. The Simi ...
bootstrap class sr-only 什么意思？
bootstrap class sr-only 什么意思? 在看 bootstrap 内联表单时,label 有一个 class 是 sr-only. sr-only 是给屏幕阅读器用的,是给视力不方 ...
Mysql慢查询日志过程
原创地址 :http://itlab.idcquan.com/linux/MYSQL/922126.html mysql慢查询日志对于跟踪有问题的查询非常有用,可以分析出代码实现中耗费资源的sql语句 ...
git grade 版本下载及安装
Git 2.11.1x64下载 gradle各版本下载地址 1. Git安装与配置 Gradle 用法总结
PHP调用Linux的命令行执行文件压缩命令&&创建文件夹修改权限
一开始,我和普通青年一样,想到用PHP内置的 ZipArchive纠结的是环境上没安装zip扩展,想采用用PHP调用Linux的命令行 ,执行压缩命令,感兴趣的朋友可以了解下,希望本文对你有所帮助前 ...
IOS学习计划
自从接触了IOS后,都没有像样的写过一篇博客去总结这近三个月来对IOS开发的了解.今天,趁着有那么一点的时间,写一下接下来的学习计划和学习路线,以便于自己今后接下来的时间可以更有方向感,更有效率的去学 ...

通过curl模拟多线程抓取网页(curl_multi_*)

通过curl模拟多线程抓取网页(curl_multi_*)的更多相关文章

随机推荐

热门专题