PHP 利用 Curl  可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集 数据可以利用 PHPquery类来采集数据库,在此之外也可以用 Curl ,借助Curl 这个功能实现并发多线程的访问多个url地址以实现并发多线程抓取网页或者下载文件.

至于具体实现过程,请参考下面几个例子:

1、实现抓取多个URL并将内容写入指定的文件

  1. $urls = array(
  2. '路径地址',
  3. '路径地址',
  4. '路径地址'
  5. ); // 设置要抓取的页面URL
  6. $save_to='/test.txt'; // 把抓取的代码写入该文件
  7. $st = fopen($save_to,"a");
  8. $mh = curl_multi_init();
  9. foreach ($urls as $i => $url) {
  10. $conn[$i] = curl_init($url);
  11. curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
  12. curl_setopt($conn[$i], CURLOPT_HEADER ,0);
  13. curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);
  14. curl_setopt($conn[$i], CURLOPT_FILE,$st); // 将爬取的代码写入文件
  15. curl_multi_add_handle ($mh,$conn[$i]);
  16. } // 初始化
  17. do {
  18. curl_multi_exec($mh,$active);
  19. } while ($active); // 执行
  20. foreach ($urls as $i => $url) {
  21. curl_multi_remove_handle($mh,$conn[$i]);
  22. curl_close($conn[$i]);
  23. } // 结束清理
  24. curl_multi_close($mh);
  25. fclose($st);
复制

2、利用 PHP 的 Curl  实现抓取网页URL并保存内容

下面这段代码和上面差不多意思,只不过这个地方是将获得的代码先放入变量,然后再将获取到的内容写入指定的文件

  1. $urls = array(
  2. '路径地址',
  3. '路径地址',
  4. '路径地址'
  5. );
  6. $save_to='/test.txt'; // 把抓取的代码写入该文件
  7. $st = fopen($save_to,"a");
  8. $mh = curl_multi_init();
  9. foreach ($urls as $i => $url) {
  10. $conn[$i] = curl_init($url);
  11. curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
  12. curl_setopt($conn[$i], CURLOPT_HEADER ,0);
  13. curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);
  14. curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 不将爬取代码写到浏览器,而是转化为字符串
  15. curl_multi_add_handle ($mh,$conn[$i]);
  16. }
  17. do {
  18. curl_multi_exec($mh,$active);
  19. } while ($active);
  20. foreach ($urls as $i => $url) {
  21. $data = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串
  22. fwrite($st,$data); // 将字符串写入文件
  23. } // 获得数据变量,并写入文件
  24. foreach ($urls as $i => $url) {
  25. curl_multi_remove_handle($mh,$conn[$i]);
  26. curl_close($conn[$i]);
  27. }
  28. curl_multi_close($mh);
  29. fclose($st);
复制

3、利用 PHP 的 Curl  实现并发多线程下载文件

  1. $urls=array(
  2. '路径地址5w.zip',
  3. '路径地址5w.zip',
  4. '路径地址5w.zip'
  5. );
  6. $save_to='./home/';
  7. $mh=curl_multi_init();
  8. foreach($urls as $i=>$url){
  9. $g=$save_to.basename($url);
  10. if(!is_file($g)){
  11. $conn[$i]=curl_init($url);
  12. $fp[$i]=fopen($g,"w");
  13. curl_setopt($conn[$i],CURLOPT_USERAGENT,"Mozilla/4.0(compatible; MSIE 7.0; Windows NT 6.0)");
  14. curl_setopt($conn[$i],CURLOPT_FILE,$fp[$i]);
  15. curl_setopt($conn[$i],CURLOPT_HEADER ,0);
  16. curl_setopt($conn[$i],CURLOPT_CONNECTTIMEOUT,60);
  17. curl_multi_add_handle($mh,$conn[$i]);
  18. }
  19. }
  20. do{
  21. $n=curl_multi_exec($mh,$active);
  22. }while($active);
  23. foreach($urls as $i=>$url){
  24. curl_multi_remove_handle($mh,$conn[$i]);
  25. curl_close($conn[$i]);
  26. fclose($fp[$i]);
  27. }
  28. curl_multi_close($mh);$urls=array(
  29. '路径地址5w.zip',
  30. '路径地址5w.zip',
  31. '路径地址5w.zip'
  32. );
  33. $save_to='./home/';
  34. $mh=curl_multi_init();
  35. foreach($urls as $i=>$url){
  36. $g=$save_to.basename($url);
  37. if(!is_file($g)){
  38. $conn[$i]=curl_init($url);
  39. $fp[$i]=fopen($g,"w");
  40. curl_setopt($conn[$i],CURLOPT_USERAGENT,"Mozilla/4.0(compatible; MSIE 7.0; Windows NT 6.0)");
  41. curl_setopt($conn[$i],CURLOPT_FILE,$fp[$i]);
  42. curl_setopt($conn[$i],CURLOPT_HEADER ,0);
  43. curl_setopt($conn[$i],CURLOPT_CONNECTTIMEOUT,60);
  44. curl_multi_add_handle($mh,$conn[$i]);
  45. }
  46. }
  47. do{
  48. $n=curl_multi_exec($mh,$active);
  49. }while($active);
  50. foreach($urls as $i=>$url){
  51. curl_multi_remove_handle($mh,$conn[$i]);
  52. curl_close($conn[$i]);
  53. fclose($fp[$i]);
  54. }
  55. curl_multi_close($mh);
复制

PHP利用Curl实现多线程抓取网页和下载文件的更多相关文章

  1. 通过curl模拟多线程抓取网页(curl_multi_*)

    curl请求多个url,以前都是使用循环来处理.最近发现可以通过curl_multi_*系列函数来模拟多线程.比对一下,发现如果请求的url只有几个,2种方案耗时差不多,但是url比较多,差距就非常明 ...

  2. curl模拟多线程抓取网页(优化)

    通过上篇文章清楚了通过curl_multi_*函数可以一次请求多个url,但是也留下了问题,就是结果要等所有数据请求结束一起返回,才能逐个处理数据.优化代码,使先成功请求的url先返回处理结果,而不是 ...

  3. php curl_multi系列函数实现多线程抓取网页

    最近几天在做一个多搜索引擎关键字排名查询工具,用于及时方便的了解关键词在各大搜索引擎的排名. 在抓取360搜索的时候,发现360搜索每页只支持显示10个搜索结果,如果想获取100个搜索结果数据,就得搜 ...

  4. PHP的cURL库:抓取网页,POST数据及其他,HTTP认证 抓取数据

    From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...

  5. php curl多线程抓取网页

    PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Cu ...

  6. 简单的使用php多线程抓取网页

    PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Cu ...

  7. 使用Python3爬虫抓取网页来下载小说

    很多时候想看小说但是在网页上找不到资源,即使找到了资源也没有提供下载,小说当然是下载下来用手机看才爽快啦! 于是程序员的思维出来了,不能下载我就直接用爬虫把各个章节爬下来,存入一个txt文件中,这样, ...

  8. python多线程抓取网页信息

    #!/usr/env  python #-*- coding: utf-8  -*- import urllib  import urllib2  import random  import requ ...

  9. 抓取网页数据C#文件

    using System;using System.Collections.Generic;using System.Linq;using System.Web;using System.Web.Mv ...

随机推荐

  1. 【poj2455】 Secret Milking Machine

    http://poj.org/problem?id=2455 (题目链接) 题意 给出一张n个点,p条边的无向图,需要从1号节点走到n号节点一共T次,每条边只能经过1次,问T次经过的最大的边最小是多少 ...

  2. Jenkins 1.x权限配置(兼容2.x)

    说明: 1.x版本的jenkins默认是没有任何权限限制,任何人都可以访问. 需要用到的插件: [Role-based Authorization Strategy] 具体配置: 0.设置Jenkin ...

  3. 最小生成树问题---Prim算法与Kruskal算法实现(MATLAB语言实现)

    2015-12-17晚,复习,甚是无聊,阅<复杂网络算法与应用>一书,得知最小生成树问题(Minimum spanning tree)问题.记之. 何为树:连通且不含圈的图称为树. 图T= ...

  4. maven 的 scope的含义

    依赖范围控制哪些依赖在哪些classpath 中可用,哪些依赖包含在一个应用中.让我们详细看一下每一种范围: compile (编译范围) compile是默认的范围:如果没有提供一个范围,那该依赖的 ...

  5. 【Alpha阶段】第八次Scrum例会

    会议信息 时间:2016.11.01 21:30 时长:60min 地点:大运村1号公寓5楼楼道 类型:日常Scrum会议 NXT:2016.11.03 21:30 个人任务报告 姓名 今日已完成Is ...

  6. what's the CRSF ??

    What's CSRF attack ? CSRF(" Cross-site request forgery!" 跨站请求伪造)    用实例讲原理: 我们假设一个银行网站A,一个 ...

  7. ubuntu14.04设置开机亮度

    1 查看自己的系统亮度的最大值: cd /sys/class/backlight 笔记本的显卡型号不同->亮度调节文件夹名会不同. 2 我的是intel_backlight cd intel_b ...

  8. 谁都能看懂的单点登录(SSO)实现方式(附源码)

    SSO的基本概念 SSO英文全称Single Sign On(单点登录).SSO是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统.它包括可以将这次主要的登录映射到其他应用中用于同 ...

  9. firefox怎么修改tls协议号

    如果目前正在运行火狐26,你可能已经注意到,浏览器仅支持SSL 3.0和TLS 1.0,默认不开启TLS 1.1或TLS 1.2.另外我们知道Firefox 27 已经实现了对TLS 1.2的支持.  ...

  10. https 页面中引入 http 资源的解决方式

    相对协议 应用场景 浏览器默认是不允许在 https 里面引用 http 资源的,一般都会弹出提示框. 用户确认后才会继续加载,用户体验非常差. 而且如果在一个 https 页面里动态的引入 http ...