何起:

  一系列 数量很大 数据不热 还希望被蜘蛛大量抓取的页面,在蜘蛛抓取高峰时,响应时间会被拉得很高。

  前人做了这样一个事儿:页面分3块,用3个内部接口提供,入口文件用curl_multi_*系列函数抓取3个内部接口的内容,拼成一个页面。

  怀疑这样做会有影响性能的可能。

  故学而分析之。

看了php官方手册,总结批量调用过程如下:

  curl_multi_init — 返回一个新cURL批处理句柄,作为curl_init生成的单个curl句柄的容器

  curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄。

  curl_multi_exec — 运行当前 cURL 句柄的子连接,curl_multi_select()的值

    curl_multi_select — 等待所有cURL批处理中的活动连接

  curl_multi_getcontent — 如果设置了CURLOPT_RETURNTRANSFER,则返回获取的输出的文本流

  curl_multi_remove_handle — 移除curl批处理句柄资源中的某个句柄资源

  curl_multi_close — 关闭一组cURL句柄

摘一段php官网的示例代码:  

  1. <?php
  2. // 创建一对cURL资源
  3. $ch1 = curl_init();
  4. $ch2 = curl_init();
  5.  
  6. // 设置URL和相应的选项
  7. curl_setopt($ch1, CURLOPT_URL, "http://lxr.php.net/");
  8. curl_setopt($ch1, CURLOPT_HEADER, 0);
  9. curl_setopt($ch2, CURLOPT_URL, "http://www.php.net/");
  10. curl_setopt($ch2, CURLOPT_HEADER, 0);
  11.  
  12. // 创建批处理cURL句柄
  13. $mh = curl_multi_init();
  14.  
  15. // 增加2个句柄
  16. curl_multi_add_handle($mh,$ch1);
  17. curl_multi_add_handle($mh,$ch2);
  18.  
  19. $active = null;
  20. // 执行批处理句柄
  21. do {
  22. $mrc = curl_multi_exec($mh, $active);
  23. } while ($mrc == CURLM_CALL_MULTI_PERFORM);
  24.  
  25. while ($active && $mrc == CURLM_OK) {
  26. if (curl_multi_select($mh) != -1) {
  27. do {
  28. $mrc = curl_multi_exec($mh, $active);
  29. } while ($mrc == CURLM_CALL_MULTI_PERFORM);
  30. }
  31. }

  32. // 读取数据
    $content1 = curl_multi_getcontent($ch1);
  1. $content2 = curl_multi_getcontent($ch2);
  1. // 关闭全部句柄
  2. curl_multi_remove_handle($mh, $ch1);
  3. curl_multi_remove_handle($mh, $ch2);
  4. curl_multi_close($mh);
  5.  
  6. ?>

疑惑和思考:

  1.批量请求的原理

    php没有多线程,借助操作系统的多线程来实现(网上看到的)

  2.批量请求以操作系统的多线程机制为基础,理论上会大量消耗机器的cpu

    a.开发机上验证,大批量请求时,cpu调用确实会急剧升高

    b.对比 线上前端机的负载情况 和 页面响应时间拉长 的时间点,发现线上前端机负载并无明显升高(维持在0.3左右)

    c.网上看到有人在curl_multi_select()返回值不是-1的时候(表示有请求没有处理完成)usleep(100),休眠以避免不对读处理状态而造成的不必要cpu压力。

  notice:

    2中的a、b有所矛盾,暂未找到根本原因

    2中的c没有经过实践测试

欢迎阅者批评指正

笔者:一般的小帅

  

浅析php curl_multi_*系列函数进行批量http请求的更多相关文章

  1. PHP 使用 curl_* 系列函数和 curl_multi_* 系列函数进行多接口调用时的性能对比

    在页面中调用的服务较多时,使用并行方式,即使用 curl_multi_* 系列函数耗时要小于 curl_* 系列函数. 测试环境 操作系统:Windows x64 Server:Apache PHP: ...

  2. 使用file_get_content系列函数和使用curl系列函数采集图片的性能对比

    由于公司的一个汽车网站的后台的汽车内容都是主要是来自与汽车之家的,编辑的同事们必须天天手动去对着汽车之家来添加汽车,实在是太蛋疼了.于是乎,为了改变这种状况,作为一个开发码农,我的任务就来了...那就 ...

  3. PHP进程通信基础——shmop 、sem系列函数使用

    PHP进程通信基础--shmop .sem系列函数使用 进程通信的原理就是在系统中开辟出一个共享区域,不管是管道也好,还是共享内存,都是这个原理.如果心中有了这个概念,就会很方便去理解代码.由于官网上 ...

  4. 第8章 用户模式下的线程同步(1)_Interlocked系列函数

    8.1 原子访问:Interlocked系列函数(Interlock英文为互锁的意思) (1)原子访问的原理 ①原子访问:指的是一线程在访问某个资源的同时,能够保证没有其他线程会在同一时刻访问该资源. ...

  5. PHP ob系列函数详解

    一. 相关函数简介:    1.Flush:刷新缓冲区的内容,输出.    函数格式:flush()    说明:这个函数经常使用,效率很高.    2.ob_start :打开输出缓冲区    函数 ...

  6. Linux中exec()执行文件系列函数的使用说明

    函数原型: 描述:    exec()系列函数使用新的进程映像替换当前进程映像.    工作方式没有什么差别, 只是参数传递的方式不同罢了. 说明:    1. 这6个函数可分为两大类: execl( ...

  7. php Output Control 函数 ob_系列函数详解

    <?php /* * 输出缓冲控制 * * flush — 刷新输出缓冲 ob_clean — 清空(擦掉)输出缓冲区 ob_end_clean — 清空(擦除)缓冲区并关闭输出缓冲 ob_en ...

  8. 从简单需求到OLAP的RANK系列函数

    同事问了一个非常简单的问题,怎么取出每个partition里面另外一个列的最小值? create table t1 (int c1, int c2);   假如按照c2分区,0-10,10-20,20 ...

  9. PHP 载入图像 imagecreatefrom_gif_jpeg_png 系列函数

    imagecreatefrom 系列函数用于从文件或 URL 载入一幅图像. 载入图像 imagecreatefrom 系列函数用于从文件或 URL 载入一幅图像,成功返回图像资源,失败则返回一个空字 ...

随机推荐

  1. 32位汇编第二讲,编写窗口程序,加载资源,响应消息,以及调用C库函数

    32位汇编第二讲,编写窗口程序,加载资源,响应消息,以及调用C库函数 (如果想看所有代码,请下载课堂资料,里面有所有代码,这里会讲解怎么生成一个窗口程序) 一丶32位汇编编写Windows窗口程序 首 ...

  2. php的mysql语句里变量加不加单引号问题

    第一种[{$_GET['id']}加不加单引号都能正常执行没问题] $sql = "select * from `news` where `id` = {$_GET['id']}" ...

  3. 【Beta阶段】测试与发布

    [Beta阶段]测试报告 一.Bug记录 1. 已经修复的BUG:文件查重的小组的空指针处理了 . 2.未能修复的bug: (1).在进行查重的时候必要要有10个文件,不然会报错:        (2 ...

  4. 团队作业9——测试与发布(Beta版本)

    Beta版本测试报告 一bug汇总 计时没有显示即倒计时,难度不同的功能没有实现(已修复) 没有导入试卷和错题功能(不打算修复) 前台管理功能(部分修复) 界面美观问题(没有修复也不打算修复) 二.场 ...

  5. java--整理下关于static关键字的知识

    如果将域定义为static,每个类中只有一个这样的域.而每一个对象对于所有的实例域却都有自己的一份拷贝.--<java核心技术> 使用static的两种情形:1.只想为某特定域分配单一存储 ...

  6. 201521123060 《Java程序设计》第9周学习总结

    1.本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2.书面作业 本次PTA作业题集异常 1.常用异常 题目5-1 1.1截图你的提交结果(出现学号) 1.2自己以前编写 ...

  7. 201521123045 <java程序设计>第11周学习总结

    201521123045 <java程序设计>第11周学习总结 1. 本周学习总结 2. 书面作业 2. 书面作业 Q1.1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问 ...

  8. 第一部分----HTML的基本结构与基本标签

    PART-1  HTML的基本结构以及Header的部分 一.什么是HTML? HTML是超文本标签语言,即网页的源码.而浏览器就是翻译解释HTML源码的工具. 二.HTML文档的结构: 三.详细注释 ...

  9. Hyperledger Fabric 1.0 从零开始(八)——Fabric多节点集群生产部署

    6.1.平台特定使用的二进制文件配置 该方案与Hyperledger Fabric 1.0 从零开始(五)--运行测试e2e类似,根据企业需要,可以控制各节点的域名,及联盟链的统一域名.可以指定单独节 ...

  10. python import xxx 与 from xxx import xx 模块引入的区别

    有如下脚本script1.py: A='aaaa'B='bbbb'C='cccc'print A,B,C 1.命令行交互模式下使用import 导入方式1: >>>import sc ...