利用wget 抓取网站网页包括css背景图片

利用wget 抓取网站网页包括css背景图片

wget是一款非常优秀的http/ftp下载工具，它功能强大，而且几乎所有的unix系统上都有。不过用它来dump比较现代的网站会有一个问题：不支持css文件，它不会自动下载、重新链接css中所指定的图片。这个问题导致的最常见的后果是dump下来的网站看不到背景图片。本文所介绍的这个脚本主要就是用来解决这个缺陷的。

这里简要介绍一下这个脚本的细节：

    第3行用于设置要下载的网站的地址。

    第10行用于将文件名转换为windows兼容的格式。windows对文件名格式的要求比unix更为苛刻一点，这里指定为windows也可以兼容unix系统。总的来说，wget的这个功能稍微弱了一点，面对一些更苛刻的系统就没有办法了。

    第13行用于忽略robots.txt。很多网站的css、js文件都是在robots.txt中被定义为spider不可访问的。

    第15、16行用于忽略某些目录和文件。因为没有了robots.txt的限制，wget可能会去访问一些不需要的东西。这里可以根据具体情况做限制。

    第19～24行下载css中链接的文件。

    第26～29行修正css中的链接。

以下是这个脚本的内容

    #!/bin/sh



    ADDR="http://www.EXAMPLE.com/"



    SERVER=${ADDR#http://}

    SERVER=${SERVER%%/*}



    wget /

        --html-extension /

        --restrict-file-names=windows /

        --convert-links /

        --page-requisites /

        --execute robots=off /

        --mirror /

        --exclude-directories /comment/reply/,/aggregator/,/user/ /

        --reject "aggregator*" /

        "$ADDR"



    find $SERVER -type f -name "*.css" -exec cat {} /; |

    grep -o 'url(/[^)]*)' |

    sort |

    uniq |

    sed 's/^url(/(.*/))$/http:////'$SERVER'/1/' |

    wget --mirror --page-requisites -i -



    for i in `find $SERVER -type f -name "*.css"`; do

        PREFIX="$(echo $i | sed 's/[^//]*//g; s///$//; s////../////g')"

        sed -i 's/url(///url('$PREFIX'/g' $i

    done

利用wget 抓取网站网页包括css背景图片的更多相关文章

写一个shell脚本利用wget抓取股票历史数据
今天,大数据部老大交给我一项任务——抓取股票历史数据.于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具.我已经被深深震撼到了.下面叙述今天的一些过程,还是比较坎坷的. ...
[Python爬虫] 之二十八：Selenium +phantomjs 利用 pyquery抓取网站排名信息
一.介绍本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/han ...
wget 爬取网站网页
相应的安装命名 yum -y install wget yum -y install setup yum -y install perl wget -r -p -np -k -E http:// ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数据挖掘的过程中,一个关键步骤就是网页源代码的获取.但是出于各种原因 ...
抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
PHP批量抓取远程网页图片并存到本地实现方法和源码
做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...

随机推荐

并发编程网 - ifeve.com
并发编程网 - ifeve.com 让天下没有难学的技术首页 JAVA 深入浅出ClassLoader 深入浅出ClassLoader Dedicate to Molly. 你真的了解ClassLo ...
_DataStructure_C_Impl:AOE网的关键路径
//_DataStructure_C_Impl:CriticalPath #include<stdio.h> #include<stdlib.h> #include<st ...
OpenSSL简单介绍及在Windows、Linux、Mac系统上的编译步骤
OpenSSL介绍:OpenSSL是一个强大的安全套接字层password库,囊括基本的password算法.经常使用的密钥和证书封装管理功能及SSL协议.并提供丰富的应用程序供測试或其他目的使用. ...
BZOJ3170: [Tjoi2013]松鼠聚会
[传送门:BZOJ3170] 简要题意: 给出n个点的坐标,规定两个点的距离=max(|x1-x2|,|y1-y2|) 要求选出一个点,使得这个点到所有点的距离和最小题解: 切比雪夫转换例题将一个 ...
wamp openssl
在这一章节里, 我记录了一下如何在 wamp 环境下配置 ssl 前提条件在设置 Apache + SSL 之前, 需要确认 Apache 已经安装并可以正常工作. 并且 ssl 需要的文件在如下的 ...
dubbo 解决既是消费者又是提供者 Duplicate application configs 的问题
首先有应用A 是提供者应用B 来实现既是消费者又是提供者在应用 B 这边新建两个xml dubbo-consumer.xml 消费者 <!-- 自动扫描注解:通过dubbo实现 - ...
Flask-上传文件和访问上传的文件
1.1.上传文件和访问上传的文件 upload_file_demo.py from flask import Flask,request,render_template import os from ...
Chrome 开发工具系列
Windows下绿色版Tomcat部署Thingworx 7.4
绿色版Tomcat部署Thingworx7.4和安装只有一个不同之处,安装版Tomcat需要在Configure Tomcat的Java标签下设置Java Options,但是绿色版并没有这个exe程 ...
Comparison of programming languages
The following table compares general and technical information for a selection of commonly used prog ...

利用wget 抓取 网站网页 包括css背景图片