php远程抓取网站图片并保存

以前看到网上别人说写程序抓取网页图片的,感觉挺神奇,心想什么时候我自己也写一个抓取图片的方法!

刚好这两天没什么事,就参考了网上一个php抓取图片代码,重点借鉴了匹配img标签和其src属性正则的写法,
封装了一个php远程抓取图片的类,测试了一下,速度还凑合, 两分钟从开源中国抓取了 110多张图片

代码如下:

<?php

/**

 * 一个用于抓取图片的类

 *

 * @package default

 * @author  WuJunwei

 */

class download_image

{

    public $save_path;                  //抓取图片的保存地址

    //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片

    public $img_size=0; 

    //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取

    public static $a_url_arr=array();   

    /**

     * @param String $save_path    抓取图片的保存地址

     * @param Int    $img_size     抓取图片的保存地址

     */

    public function __construct($save_path,$img_size)

    {

        $this->save_path=$save_path;

        $this->img_size=$img_size;

    }

    /**

     * 递归下载抓取首页及其子页面图片的方法  ( recursive 递归)

     *

     * @param   String  $capture_url  用于抓取图片的网址

     *

     */

    public function recursive_download_images($capture_url)

    {

        if (!in_array($capture_url,self::$a_url_arr))   //没抓取过

        {

            self::$a_url_arr[]=$capture_url;   //计入静态数组

        } else   //抓取过,直接退出函数

        {

            return;

        }        

        $this->download_current_page_images($capture_url);  //下载当前页面的所有图片

        //用@屏蔽掉因为抓取地址无法读取导致的warning错误

        $content=@file_get_contents($capture_url); 

        //匹配a标签href属性中?之前部分的正则

        $a_pattern = "|<a[^>]+href=['\" ]?([^ '\"?]+)['\" >]|U";

        preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER);

        $tmp_arr=array();  //定义一个数组,用于存放当前循环下抓取图片的超链接地址

        foreach ($a_out as $k => $v)

        {

            /**

             * 去除超链接中的 空'','#','/'和重复值

             * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环

             * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,

             * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)

             */

            if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) )

            {

                $tmp_arr[]=$v[1];

            }

        }

        foreach ($tmp_arr as $k => $v)

        {

            //超链接路径地址

            if ( strpos($v, 'http://')!==false ) //如果url包含http://,可以直接访问

            {

                $a_url = $v;

            }else   //否则证明是相对地址, 需要重新拼凑超链接的访问地址

            {

                $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);

                $a_url=$domain_url.$v;

            }

            $this->recursive_download_images($a_url);

        }

    }  

    /**

     * 下载当前网页下的所有图片

     *

     * @param   String  $capture_url  用于抓取图片的网页地址

     * @return  Array   当前网页上所有图片img标签url地址的一个数组

     */

    public function download_current_page_images($capture_url)

    {

        $content=@file_get_contents($capture_url);   //屏蔽warning错误

		//匹配img标签src属性中?之前部分的正则

		$img_pattern = "|<img[^>]+src=['\" ]?([^ '\"?]+)['\" >]|U";

        preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER);

		$photo_num = count($img_out);

        //匹配到的图片数量

        echo '<h1>'.$capture_url . "共找到 " . $photo_num . " 张图片</h1>";

        foreach ($img_out as $k => $v)

        {

            $this->save_one_img($capture_url,$v[1]);

        }

    }

    /**

     * 保存单个图片的方法

     *

     * @param String $capture_url   用于抓取图片的网页地址

     * @param String $img_url       需要保存的图片的url

     *

     */

    public function save_one_img($capture_url,$img_url)

    {

        //图片路径地址

        if ( strpos($img_url, 'http://')!==false )

        {

            // $img_url = $img_url;

        }else

        {

            $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);

            $img_url=$domain_url.$img_url;

        }

        $pathinfo = pathinfo($img_url);    //获取图片路径信息

        $pic_name=$pathinfo['basename'];   //获取图片的名字

        if (file_exists($this->save_path.$pic_name))  //如果图片存在,证明已经被抓取过,退出函数

        {

            echo $img_url . '<span style="color:red;margin-left:80px">该图片已经抓取过!</span><br/>';

            return;

        }

        //将图片内容读入一个字符串

        $img_data = @file_get_contents($img_url);   //屏蔽掉因为图片地址无法读取导致的warning错误

        if ( strlen($img_data) > $this->img_size )   //下载size比限制大的图片

        {

            $img_size = file_put_contents($this->save_path . $pic_name, $img_data);

            if ($img_size)

            {

                echo $img_url . '<span style="color:green;margin-left:80px">图片保存成功!</span><br/>';

            } else

            {

                echo $img_url . '<span style="color:red;margin-left:80px">图片保存失败!</span><br/>';

            }

        } else

        {

            echo $img_url . '<span style="color:red;margin-left:80px">图片读取失败!</span><br/>';

        }

    }

} // END

set_time_limit(120);     //设置脚本的最大执行时间  根据情况设置

$download_img=new download_image('E:/images/',0);   //实例化下载图片对象

$download_img->recursive_download_images('http://www.oschina.net/');      //递归抓取图片方法

//$download_img->download_current_page_images($_POST['capture_url']);     //只抓取当前页面图片方法

?>

php远程抓取网站图片并保存的更多相关文章

Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
使用python来批量抓取网站图片
今天"无意"看美女无意溜达到一个网站,发现妹子多多,但是可恨一个page只显示一张或两张图片,家里WiFi也难用,于是发挥"程序猿"的本色,写个小脚本,把图片扒 ...
php 文件操作之抓取网站图片
$str= file_get_contents("http://v.qq.com/");preg_match_all("/\<img\s+src=.*\s*\> ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
使用PHP抓取网站ico图标
网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

随机推荐

HDU 1171 Big Event in HDU 多重背包二进制优化
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1171 Big Event in HDU Time Limit: 10000/5000 MS (Jav ...
Codeforces Beta Round #6 (Div. 2 Only) D. Lizards and Basements 2 dp
题目链接: http://codeforces.com/problemset/problem/6/D D. Lizards and Basements 2 time limit per test2 s ...
java操作xml
package com.xml.zh; import javax.xml.parsers.*; import org.w3c.dom.*; public class XmlTest1{ /** * 使 ...
JMeter工具的使用-ForEach
1,Add Thread group this detail information about this panel as below link http://jmeter.apache.org/u ...
sprintf、strcpy和memcpy的区别
做某题用到了sprintf把一个字符数组(字符串)写到二维字符数组里,然后耗时挺长的,想了想strcpy好像也可以,事实证明strcpy效率果然更高,然后想了想觉得memcpy好像也可以.实践了一下的 ...
python多态
多态是面向对象语言的一个基本特性,多态意味着变量并不知道引用的对象是什么,根据引用对象的不同表现不同的行为方式.在处理多态对象时,只需要关注它的接口即可,python中并不需要显示的编写(像Java一 ...
@SuppressWarnings含义
J2SE 提供的最后一个批注是 @SuppressWarnings.该批注的作用是给编译器一条指令,告诉它对被批注的代码元素内部的某些警告保持静默. @SuppressWarnings 批注允许您选择 ...
MySQL tips （日期时间操作／concat 等）
1. Query结尾要加一个分号: 2. 数据库和表 SHOW DATABASES; USE YOUR_DB; SHOW TABLES; SHOW COLUMNS FROM study或者D ...
curl 命令行应用
我一向以为,curl只是一个编程用的函数库. 最近才发现,这个命令本身,就是一个无比有用的网站开发工具,请看我整理的它的用法. =================================== ...
json中loads的用法
python中json中的loads()和dumps()它们的作用经常弄换了,这里记录下,loads方法是把json对象转化为python对象,dumps方法是把pyhon对象转化为json对象,我是 ...

php远程抓取网站图片并保存

php远程抓取网站图片并保存的更多相关文章

随机推荐

热门专题