Linux wget 批量下载

需求：已知50个pdf的URL地址，需要批量下载，该怎么办呢？

方案一：使用wget自带的一个功能 -i 选项从指定文件中读取下载地址，这样的好处是一直是这一个wget进程下载所有pdf，不会来回的启、停止进程

[root@Jenkins tmp]# pwd

/root/tmp

[root@Jenkins tmp]# wc -l 50pdf.log

 50pdf.log

[root@Jenkins tmp]# head - 50pdf.log

.pdf

.pdf

.pdf

[root@Jenkins tmp]# awk '{print "http://xxxxx/"$1}' 50pdf.log > download.log

[root@Jenkins tmp]# head - download.log

http://xxxxx/14788669468643331.pdf

http://xxxxx/1479035133045678.pdf

http://xxxxx/14799731544302441.pdf

[root@Jenkins tmp]# wget -i download.log

---- ::--  http://xxxxx/14788669468643331.pdf

Resolving nfs.htbaobao.com... 106.75.138.13

Connecting to nfs.htbaobao.com|106.75.138.13|:... connected.

HTTP request sent, awaiting response...  OK

Length:  (2.5M) [application/pdf]

Saving to: “.pdf”

%[========================================================================================================================================================================>] ,,    244K/s   in 10s     

-- :: ( KB/s) - “.pdf” saved [/]

.......................................中间省略

---- ::--  http://xxxxx/1481341338750833.pdf

Reusing existing connection to nfs.htbaobao.com:.

HTTP request sent, awaiting response...  OK

Length:  (149K) [application/pdf]

Saving to: “.pdf”

%[========================================================================================================================================================================>] ,      209K/s   in .7s    

-- :: ( KB/s) - “.pdf” saved [/]

FINISHED ---- ::--

Downloaded:  files, 16M in 1m 13s ( KB/s)

[root@Jenkins tmp]# ls
14788669468643331.pdf 1481187682278708.pdf 1481262534034760.pdf 1481266593232456.pdf 1481340827926207.pdf 1481340948842260.pdf 1481341049634040.pdf 1481341172815801.pdf 1481341307823881.pdf
1479035133045678.pdf 1481193562811982.pdf 1481262611307371.pdf 1481267034803389.pdf 1481340853666343.pdf 1481340973957872.pdf 1481341112979143.pdf 1481341185245978.pdf 1481341338750833.pdf
14799731544302441.pdf 1481247789582233.pdf 1481262623674903.pdf 1481270022285676.pdf 1481340897933322.pdf 1481341008561312.pdf 1481341130545646.pdf 1481341216517700.pdf 50pdf.log
14799944743125144.pdf 1481262178457017.pdf 1481262846773279.pdf 1481286012498927.pdf 1481340922434822.pdf 1481341008584230.pdf 1481341134346522.pdf 1481341229730723.pdf download.log
1481034002739896.pdf 1481262229905206.pdf 1481265452669335.pdf 1481340787767089.pdf 1481340927135663.pdf 1481341022043499.pdf 1481341148759269.pdf 1481341244148718.pdf
1481095290513785.pdf 1481262241457479.pdf 1481265807661321.pdf 1481340826599027.pdf 1481340943094250.pdf 1481341045655154.pdf 1481341159027852.pdf 1481341261314587.pdf

在下载过程中打开另外一个窗口查看是否是同一个wget进程

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: wget -i download.log

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: wget -i download.log

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: wget -i download.log

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: wget -i download.log

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

[root@Jenkins ~]#

方案二：把这些URL地址放在一个文件里面，然后写个脚本直接for循环取一个URL地址交给wget下载，但是这样不好的是每下载一个pdf都会启动一个wget进程，下载完成后关闭wget进程 ......一直这样循环到最后一个，比较影响系统性能

[root@Jenkins tmp]# ls

50pdf.log  download.log  wget_pdf.sh

[root@Jenkins tmp]# cat wget_pdf.sh

#!/usr/bin/env bash

#

for url in `cat /root/tmp/download.log`;do

    wget $url

done

[root@Jenkins tmp]# sh wget_pdf.sh

---- ::--  http://xxxxx/14788669468643331.pdf

Resolving nfs.htbaobao.com... 106.75.138.13

Connecting to nfs.htbaobao.com|106.75.138.13|:... connected.

HTTP request sent, awaiting response...  OK

Length:  (2.5M) [application/pdf]

Saving to: “.pdf”

%[========================================================================================================================================================================>] ,,    230K/s   in 11s     

-- :: ( KB/s) - “.pdf” saved [/]

......................................................中间省略

---- ::--  http://xxxxx/1481341338750833.pdf

Resolving nfs.htbaobao.com... 106.75.138.13

Connecting to nfs.htbaobao.com|106.75.138.13|:... connected.

HTTP request sent, awaiting response...  OK

Length:  (149K) [application/pdf]

Saving to: “.pdf”

%[========================================================================================================================================================================>] ,      184K/s   in .8s    

-- :: ( KB/s) - “.pdf” saved [/]

[root@Jenkins tmp]# ls

.pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf

.pdf   .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf

.pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  50pdf.log

.pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  download.log

.pdf   .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  wget_pdf.sh

.pdf   .pdf  .pdf  .pdf  .pdf  .pdf  .pdf  .pdf

在下载过程中打开另外一个窗口查看是否是同一个wget进程

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/14788669468643331.pdf

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/1479035133045678.pdf

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/1479035133045678.pdf

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/14799731544302441.pdf

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/14799731544302441.pdf

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/14799944743125144.pdf

[root@Jenkins ~]# ps -ef|grep -v grep|grep wget

root          : pts/    :: sh wget_pdf.sh

root         : pts/    :: wget http://xxxxx/1481341307823881.pdf

小结：

　　1、使用方案一只有一个进程下载，且在最后会显示总共下载了多少个文件，下载的总大小等信息

　　2、使用方案二每次下载都会重新生成一个wget进程，上下文频繁切换

Linux wget 批量下载的更多相关文章

Linux wget 命令下载文件
wget是Linux系统中用来下载文件的工具,其功能还是比较多的,能够下载单个文件,也可以分段下载,下面小编将针对wget命令的用法给大家做个实例介绍. 实例1 :下载单个文件 # wget http ...
linux wget指定下载目录和重命名
当我们在使用wget命令下载文件时,通常会需要将文件下载到指定的目录,这时就可以使用 -P 参数来指定目录,如果指定的目录不存在,则会自动创建. 示例: p.p1 { margin: 0; font: ...
wget批量下载
wget -i download.txt 这样就会把download.txt里面列出的每个URL都下载下来. wget -c http://the.url.of/incomplete/file 使用断 ...
linux FTP 批量下载文件
wget是一个从网络上自动下载文件的自由工具,支持通过HTTP.HTTPS.FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理.wget名称的由来是“World Wide Web”与“ge ...
wget批量下载http文件
eg:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeAwgDnaseUniform/ 下载该路径下的所有文件 wge ...
利用wget批量下载http目录下文件
原理:下载你需要down的目录页面的index.html,可能名字不是如此!!!之后用wget下载该文件里包含的所有链接! 例如:wget -vE -rLnp -nH --tries=20 --tim ...
wget 批量下载网站目录下的文件
执行如下命令就会自动下载 http://www.iyunwei.com/docs/ 下面的所有文件: wget -nd -r -l1 --no-parent http://www.iyunwei.co ...
wget 批量下载目录文件
wget -r -p -k -np http://源目录 ./本地目标目录
15个Linux Wget下载实例终极指南
15个Linux Wget下载实例终极指南 Linux wget是一个下载文件的工具,它用在命令行下.对于Linux用户是必不可少的工具,尤其对于网络管理员,经常要下载一些软件或从远程服务器恢复备份到 ...

随机推荐

.Net Core快速创建Windows服务
1.新建.Net Core控制台程序,添加新建项Windows服务: NuGet引用 System.ServiceProcess.ServiceController,然后修改Progran.cs: c ...
前端深入之css篇|你真的了解“权重”吗？
写在前面权重这个概念,相信对许多进行过前端开发的小伙伴来说肯定并不陌生,有时候一个样式添加不上,我们就会一个 !important 怼上去,一切就好像迎刃而解了.但还有的时候,!important也 ...
sbt 学习笔记（2）sbt生成项目导入eclipse
在sbt配置eclipse插件 C:\Users\Administrator\.sbt\0.13\ 新建plugins目录,在目录中新建plugins.sbt 文件内容为: addSbtPlugin( ...
vs2019下载和更新速度非常慢的解决方案
纵观全网,就两种解决方案 1.取消网络适配器里面的IPV6的给勾选[我试过,无效,但是有些网友说是有效果,也不知道是咋回事] 2.修改host.[本人亲测有效果,速度从5kb到5M左右,但是无法跑满宽 ...
maven突然报大量package does not exist（包不存在）问题
遇到个问题,不知道原因,虽然已解决,但是扔不知道为什么,希望有大神帮忙解答下~~~不胜感激~~~ 国庆假期回来后,小伙伴发布测试服务器版本忽然发现报错,我咨询IT管理组近期并没有对服务器配置和权限做调 ...
04-07 scikit-learn库之梯度提升树
目录 scikit-learn库之梯度提升树一.GradietBoostingClassifier 1.1 使用场景 1.2 参数 1.3 属性 1.4 方法二.GradietBoostingCl ...
A-03 牛顿法和拟牛顿法
目录牛顿法和拟牛顿法一.牛顿法详解 1.1 无约束最优化问题 1.2 牛顿法迭代公式 1.3 牛顿法和梯度下降法二.牛顿法流程 2.1 输入 2.2 输出 2.3 流程三.拟牛顿法简介更新. ...
洛谷 P3745 [六省联考2017]期末考试
题目描述有 nnn 位同学,每位同学都参加了全部的 mmm 门课程的期末考试,都在焦急的等待成绩的公布. 第 iii 位同学希望在第 tit_iti 天或之前得知所有课程的成绩.如果在第 tit_ ...
Java通信——获取自己IP
获取自己的IP地址 import java.net.InetAddress; import java.net.UnknownHostException; public class getip { pu ...
从.NET CORE2.2升级到3.0过程及遇到的一些问题
RoadFlow工作流引擎从.NET Core2.2升级到3.0遇到了一些问题及解决方式这里记录一下. 1.DLL项目框架从2.2选择到3.0,这个没什么好说的,没有问题.重点的WEB层的一些变化. ...

Linux wget 批量下载

Linux wget 批量下载的更多相关文章

随机推荐

热门专题