整站网页doc下载wget (转)

wget很厉害，你如果想把某个网站上的一系列的文档，通常是api文档扒下来可用下列命令：
wget -e robots=off -w  -x -np -p -m -k -t  -X/upload/ http://网址

为了让这个命令行的各选项意义更加明确，它还可以写成：

wget --execute robots=off --wait= --force-directories --no-parent --page-requisites --mirror --convert-links --tries= --exclude-directories /upload/ http://网址

使用wget拷贝网站时的一些选项

下面对其中的各选项简要说明，做备忘之用。

‘-e command’

‘--execute command’

用来执行额外的.wgetrc命令。就像vim的配置存在.vimrc文件中一样，wget也用.wgetrc文件来存放它的配置。也就是说在wget执行之前，会先执行.wgetrc文件中的配置命令。一个典型的.wgetrc文件可以参考：

用户可以在不改写.wgetrc文件的情况下，用-e选项指定额外的配置命令。如果想要制定多个配置命令，-e command1 -e command2 ... -e commandN即可。这些制定的配置命令，会在.wgetrc中所有命令之后执行，因此会覆盖.wgetrc中相同的配置项。

这里robots=off是因为wget默认会根据网站的robots.txt进行操作，如果robots.txt里是User-agent: * Disallow: /的话，wget是做不了镜像或者下载目录的，使用-e robots=off参数即可绕过该限制。

-w seconds

--wait=seconds

为了不给被拷贝的镜像网站带来太大的访问压力，页面请求之间停下等待seconds时间。

-x

--force-directories

创建与镜像网站对应的目录结构。 http://example/robots.txt这个文件下载下来时，会等到对应的www.example.com/robots.txt。与之相反的是-nd，即--no-directories，

-np

--no-parent

只下载给定的目录下的文件，不下载它的上级目录中的文件，即使有些页面中存在上级目录中文件的连接。这个比较必要，如果不限定的话，本来只想下载www.example.com/blog/中的博客文章，最后很有可能将整个www.example.com都下载下来了。

-p

--page-requisites

下载能显示整个页面需要的所有资源，包括内嵌的image以及css样式文件。

-m

--mirror

它会打开镜像相关的选项，比如无限深度的子目录递归下载。

-k

--convert-links

这个选项会在整个网站下载完成后修HTML、CSS、Image等资源的链接关系，让它们都指向下载下来的本地文件，从而适合本地浏览。

-t times

--tries=times

如果某个资源下载失败，这个选项指定了重试下载的次数。.wgetrc默认的是20次。我们在下载网站时可以将其放小，一则减少下载时间，二则减轻镜像站点的压力。

-X /some/dir

--exclude-directories /some/dir

可以用这个参数指定不需要下载的目录，如果有多个需要排除的目录，可以用逗号隔开，比如

-X /some/dir1;/some/dir2

整站网页doc下载wget (转)的更多相关文章

[参考]wget下载整站
wget -m -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/200 ...
Linux系统下利用wget命令把整站下载做镜像网站
Linux系统下利用wget命令把整站下载做镜像网站 2011-05-28 18:13:01 | 1次阅读 | 评论:0 条 | itokit 在linux下完整的用wget命令整站采集网站做镜像 ...
wget整站抓取、网站抓取功能；下载整个网站；下载网站到本地
wget -r -p -np -k -E http://www.xxx.com 抓取整站 wget -l 1 -p -np -k http://www.xxx.com 抓取第一级 - ...
Windows中使用wget整站下载
weget wget安装 Windows下载点击下载 https://eternallybored.org/misc/wget/ 会跳转到wget的下载页,根据自己电脑选择下载的文件,我下载的版 ...
使用wget进行整站下载（转）
wget在Linux下默认已经安装,Windows下需要自行安装. Windows下载地址:http://wget.addictivecode.org/Faq.html#download,链接:htt ...
数据挖掘_wget整站下载
你应该了解的所有wget命令翻译自All the Wget Commands You Should Know 如何下载整个网站用来离线浏览?怎样将一个网站上的所有MP3文件保存到本地的一个目录中?怎 ...
Scrapy 使用CrawlSpider整站抓取文章内容实现
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
Web侦察工具HTTrack （爬取整站）
Web侦察工具HTTrack (爬取整站) HTTrack介绍爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从I ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...

随机推荐

产品经理技能之BRD的笔记之菜鸟入门
链接:http://www.woshipm.com/pmd/178527.html?utm_source=tuicool 要学习MRD.PRD,先从BRD开始,才能做到知其然知其所以然. BRD是什么 ...
Java 基础【10】 I/O流概念分析整理
转载地址:http://blog.csdn.net/yuebinghaoyuan/article/details/7388059 java.io 中的流,可以从不同的角度进行分类. 按照数据流的方向不 ...
网页中三角切边还半透明，现在的设计师越来越牛，css也要跟上啊
需求今天在群里看到一个需求,啊这种三角形缺角怎么做啊,还带半透明阴影的. 分析要实现这个,可以用css做三角,网上找一下代码,像这样. 由于以前没有试过border能不能带透明,所以需要试验一下. ...
ionic —— 开发环境搭建并编译运行第一个APP
其实类似的环境已经玩了很多次了,最开始玩还是微信刚刚出来,那会儿没有智能机.只好安装一个模拟器,却只是为了注册一个微信.想想也就是够了~ 前前后后折腾了很多次,可是每一次都给人不一样的感觉,也许是这个 ...
sql server 字符串函数str()
语法: STR(nExpres[,nLength[,nDecimalPlaces]]) 参数: nExpression------STR要计算的数值表达式. nLength------------ST ...
样条函数 -- spline function
一类分段(片)光滑.并且在各段交接处也有一定光滑性的函数.简称样条.样条一词来源于工程绘图人员为了将一些指定点连接成一条光顺曲线所使用的工具,即富有弹性的细木条或薄钢条.由这样的样条形成的曲线在连接点 ...
poj 1698 Alice‘s Chance
poj 1698 Alice's Chance 题目地址: http://poj.org/problem?id=1698 题意: 演员Alice ,面对n场电影,每场电影拍摄持续w周,每周特定几天拍 ...
vijos-1447 开关灯泡-大整数开方算法
描述一个房间里有n盏灯泡,一开始都是熄着的,有1到n个时刻,每个时刻i,我们会将i的倍数的灯泡改变状态(即原本开着的现将它熄灭,原本熄灭的现将它点亮),问最后有多少盏灯泡是亮着的. 提示范围:40 ...
python2.X和3.X的一些区别【整理中】
1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%.Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可以取得很好的优化结果. Py3.1性能比P ...
Spring学习进阶（四） Spring JDBC
Spring JDBC是Spring所提供的持久层技术.主要目的是降低使用JDBC API的门槛,以一种更直接,更简洁的方式使用JDBC API.在Spring JDBC里用户仅需要做哪些比不可少的事 ...

整站网页doc下载wget (转)

整站网页doc下载wget (转)的更多相关文章

随机推荐

热门专题