wget下载整个网站的方法

转自: http://blog.itpub.net/29867/viewspace-716088/

(修改部分内容)

wget --restrict-file-name=ascii -m -c -nv -np -k -E -p http://www.w3school.com.cn/
wget --restrict-file-name=ascii -m -c -nv -np -k -E -p http://scrapy-chs.readthedocs.org

参数释义如下：

--restrict-file-name=ascii ，将文件名保存为ASCII格式。这样能避免utf-8文件名带来的麻烦（注：1.12版才支持ascii参数值）

-m 整站下载，mirror的缩写，是-N -r -l inf --no-remove-listing 这几个参数的快捷方式，具体详阅各自的说明

-c 续传

-nv 不显示详细的下载详情

-np don’t ascend to the parent directory.即下载的Web页面不越过后面指定的 http://www.xxx.com的范围。当然，如果你指定的是 http://www.xxx.com/aaa，则所有的web页面都要在 http://www.xxx.com/aaa下

-k 下载完成后，将页面文件中的链接转换为本地链接，便于离线浏览和制作chm等

-E 保存html/css文件时，使用合适的文件后缀。例如，在某些网站有些文件是服务器端动态生成的，虽然是css文件，但后缀并不是css，-E选项可以调整之

-p -np对页面文件做了限制，如果不加-p，则html所需的媒体文件也会受限于-np，-p则会下载html/css文件所需的所有媒体文件（图片、音频、视频等）

-R 拒绝下载的文件后缀列表，逗号分隔

至于下载到的文件的文件名变为了形如%A7这样百分号加16进制数字的形式，可以用个python程序来改变文件名：

————————————————————————————————————

import os, urllib, sys, getopt

class Renamer:

input_encoding = ""

output_encoding = ""

path = ""

is_url = False

def __init__(self, input, output, path, is_url):

self.input_encoding = input

self.output_encoding = output

self.path = path

self.is_url = is_url

def start(self):

self.rename_dir(self.path)

def rename(self, root, path):

try:

if self.is_url:

new = urllib.unquote(path).decode(self.input_encoding).encode(self.output_encoding)

else:

new = path.decode(self.input_encoding).encode(self.output_encoding)

os.rename(os.path.join(root, path), os.path.join(root, new))

except:

pass

def rename_dir(self, path):

for root, dirs, files in os.walk(path):

for f in files:

self.rename(root, f)

if dirs == []:

for f in files:

self.rename(root, f)

else:

for d in dirs:

self.rename_dir(os.path.join(root, d))

self.rename(root, d)

def usage():

print '''This program can change encode of files or directories.

Usage: rename.py [OPTION]...

Options:

-h, --help this document.

-i, --input-encoding=ENC set original encoding, default is UTF-8.

-o, --output-encoding=ENC set output encoding, default is GBK.

-p, --path=PATH choose the path which to process.

-u, --is-url whether as a URL

'''

def main(argv):

input_encoding = "utf-8"

output_encoding = "gbk"

path = ""

is_url = True

try:

opts, args = getopt.getopt(argv, "hi:o:p:u", ["help", "input-encoding=", "output-encoding=", "path=", "is-url"])

except getopt.GetoptError:

usage()

sys.exit(2)

for opt, arg in opts:

if opt in ("-h", "--help"):

usage()

sys.exit()

elif opt in ("-i", "--input-encoding"):

input_encoding = arg

elif opt in ("-o", "--output-encoding"):

output_encoding = arg

elif opt in ("-p", "--path"):

path = arg

elif opt in ("-u", "--is-url"):

is_url = True

rn = Renamer(input_encoding, output_encoding, path, is_url)

rn.start()

if __name__ == '__main__':

main(sys.argv[1:])

————————————————————————————————————

rename.py -i utf-8 -o gbk -p <指定的下载目录> -u

文件改名方法来自于http://blog.csdn.net/kowity/article/details/6899256

wget下载整个网站的方法的更多相关文章

linux下使用wget下载整个网站
linux下可以用wget下载整个网站,而且网站链接中包含utf-8编码的中文也能正确处理. 简要方法记录如下: wget --restrict-file-name=ascii -m -c -nv - ...
wget下载整个网站
wget下载整个网站wget下载整个网站可以使用下面的命令 wget -r -p -k -np http://hi.baidu.com/phps , -r 表示递归下载,会下载所有的链接,不过要注意的 ...
wget下载整个网站---比较实用--比如抓取Smarty的document
wget下载整个网站可以使用下面的命令 wget -r -p -k -np http://hi.baidu.com/phps, -r 表示递归下载,会下载所有的链接,不过要注意的是,不要单独使用这个参 ...
为什么wget只下载某些网站的index.html？ wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com wget 下载整个网站，或者特定目录
wget -c -r -np -k -L -p http://blog.hesheyou.me -c, –continue 接着下载没下载完的文件 -r, –recursive 递归下载 -np, – ...
wget下载整个网站或特定目录
下载整个网站或特定目录 wget -c -k -r -np -p http://www.yoursite.com/path -c, –continue 断点下载 -k, –convert-links ...
wget 下载整个网站，或者特定目录
需要下载某个目录下面的所有文件.命令如下 wget -c -r -np -k -L -p www.xxx.org/pub/path/ 在下载时.有用到外部域名的图片或连接.如果需要同时下载就要用-H参 ...
Centos下wget下载整个网站，或者目录全部文件
需要下载某个目录下面的所有文件.命令如下 wget -c -r -np -k -L -p www.xxx.org/pub/path/ 在下载时.有用到外部域名的图片或连接.如果需要同时下载就要用-H参 ...
[转]wget 下载整个网站，或者特定目录
FROM : http://www.cnblogs.com/lidp/archive/2010/03/02/1696447.html 需要下载某个目录下面的所有文件.命令如下 wget -c -r - ...
[No00006B]方便的网络下载工具wget 可下载网站目录下的所有文件(可下载整个网站)
wget是linux下命令行的下载工具,功能很强大,它能完成某些下载软件所不能做的,比如如果你想下载一个网页目录下的所有文件,如何做呢?网络用户有时候会遇到需要下载一批文件的情况,有时甚至需要把整个网 ...

随机推荐

activity堆栈式管理
package com.chinaCEB.cebActivity.utils; import java.util.Stack; import android.app.Activity; import ...
web.py上传文件并解压
有个需求是从php端上传zip文件到python端并且解压到指定目录,以下是解决方法 1.python端,使用的web.py def POST(self): post_data = web.input ...
linux socket下send()&recv()调用
1.send 函数 int send( SOCKET s, const char FAR *buf, int len, int flags ); 不论是客户还是服务器应用程序都用send函数来向TCP ...
DOS程序员手册（一）
当今MS-Windows横扫大江南北,让我们这就来研究一下它的祖宗——MS-DOS! 这本书很难得,希望读者好好学习! DOS程序员手册(一) DOS教程 (以下内容全部为原作者的阐述,照样保留) 这 ...
《数据结构》C++代码邻接表与邻接矩阵
上一篇“BFS与DFS”写完,突然意识到这个可能偏离了“数据结构”的主题,所以回来介绍一下图的存储:邻接表和邻接矩阵. 存图有两种方式,邻接矩阵严格说就是一个bool型的二维数组,map[i][j]表 ...
【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注: ...
【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
嗯，ACM按照这个一步一步来。
转一个搞ACM需要的掌握的算法. 要注意,ACM的竞赛性强,因此自己应该和自己的实际应用联系起来. 适合自己的才是好的,有的人不适合搞算法,喜欢系统架构,因此不要看到别人什么就眼红, 发挥 ...
Centos在VMware虚拟机上的网络配置一记
症状:配置好了IP, ping 127.0.0.1 ok ping 10.0.0.1 ok ping 外网IP,域名 network is unreachable ------- ...
springboot配多数据源
多数据源配置 https://blog.csdn.net/neosmith/article/details/61202084 https://www.cnblogs.com/zhangboyu/p/7 ...

wget下载整个网站的方法

wget下载整个网站的方法的更多相关文章

随机推荐

热门专题