Shell 命令行实现将一个站点页面全部下载到本地并替换其中链接的脚本

不知道为什么,我总想用 Shell 脚本来实现把一个站点内容给下载下来。但是下载什么站点我确不知道。今天尝试了一下利用 curl 实现了下载一个站点列表的 demo 算是小试牛刀。

当脚本成功之后,我知道,要把这个站点完全下载下来也是没有问题的。不过是需要更加复杂的循环和匹配而已。

接下来有工作要做,所以 shell 的学习暂时先告一段落。

实现代码

  1. #!/bin/bash
  2. echo '--开始下载首页--'
  3. curl -s 'http://man.linuxde.net/par/5' > ./html/index.html
  4. mh=./html/index.html
  5. sl=$(nl $mh | grep '<div class="list_bd clearfix">' | head -1 | sed 's/^[ ]*//g' | cut -d ' ' -f1)
  6. el=$(nl $mh | grep "<div class='paging'>" | head -1 | sed 's/^[ ]*//g' | cut -d ' ' -f1)
  7. sed -n "$sl","$el"'p' $mh > main.htm
  8. echo '--开始下载内页--'
  9. #<a href="
  10. while read line; do
  11. url=$(echo $line | grep '<a href="' | sed 's/<div class="name"><a href="//g' | cut -d '"' -f1)
  12. if [[ -n $url ]]; then
  13. echo '--开始下载' $name '页面--'
  14. name=$(echo $url | cut -d '/' -f4)
  15. html='./html/'$name'.html'
  16. curl -s $url > $html
  17. # echo '--开始处理' $name '页面链接--'
  18. # sed -i 's/http:\/\/man\.linuxde\.net\//g' $html
  19. fi
  20. done < main.htm
  21. echo '--页面下载完成--'
  22. echo '--处理页面链接--'
  23. sed -i '' 's/http:\/\/man\.linuxde\.net\///g' $(grep -rl 'http://man.linuxde.net' ./html)
  24. sed -i '' 's/" title="/\.html" title="/g' $(grep -rl '" title="' ./html)
  25. echo '--链接处理完成--'

实现原理

  1. 先下载列表首页。我这里只是尝试,所以只下载了第一页。如果要下载多页,做好循环之后,自动下载就是。
  2. 截取页面的列表内容区域。
  3. 根据页面特点,拆解出页面链接。
  4. 循环下载链接并保存。
  5. 批量替换页面的链接不合适的地方。

然后就大功告成了。

不过 wgetcurl 可能更适合干这个工作。我目前还没有学到很深入。回头有时间再接着研究一下。

后续补充

看了下 wget 我气炸了。原来我要下载人家网站全站,用 wget 一句命令就可以搞定了 -_-|||

  1. wget --mirror -p --convert-links -P ./ http://man.linuxde.net/

神奇的 shell

以上脚本均在 mac 下测试通过,在 Linux 下可能会有稍许不同。

本文由 FungLeo 原创,允许转载,但转载必须保留首发链接。

Shell 命令行实现将一个站点页面全部下载到本地并替换其中链接的脚本的更多相关文章

  1. Shell 命令行批量处理图片文件名

    Shell 命令行批量处理图片文件名 从网上下载了一堆图片,有的是*.jpg的,有的是*.jpeg的.并且文件名有长有短,很是糟心.因此,我想把这些文件给全部整理好,当然是用shell来处理啦! 说干 ...

  2. Shell 命令行统计 apache 网站日志访问IP以及IP归属地

    Shell 命令行统计 apache 网站日志访问IP以及IP归属地 我的一个站点用 apache 服务跑着,积攒了很多的日志.我想用 shell 看看有哪些人访问过我的站点,并且他来自哪里. 因为日 ...

  3. 几种在shell命令行中过滤adb logcat输出的方法

    我们在Android开发中总能看到程序的log日志内容充满了屏幕,而真正对开发者有意义的信息被淹没在洪流之中,让开发者无所适从,严重影响开发效率.本文就具体介绍几种在shell命令行中过滤adblog ...

  4. 自学Linux Shell2.1-进入shell命令行

    点击返回 自学Linux命令行与Shell脚本之路 2.1-进入shell命令行 进入文本命令行界面(CLI)两种方法: 控制台终端 图形化终端 1. 通过Linux控制台终端访问CLI 按下Ctrl ...

  5. Hadoop HDFS的shell(命令行客户端)操作实例

    HDFS的shell(命令行客户端)操作实例 3.2 常用命令参数介绍 -help 功能:输出这个命令参数手册 -ls                  功能:显示目录信息 示例: hadoop fs ...

  6. Shell 命令行,写一个自动整理 ~/Downloads/ 文件夹下文件的脚本

    Shell 命令行,写一个自动整理 ~/Downloads/ 文件夹下文件的脚本 在 mac 或者 linux 系统中,我们的浏览器或者其他下载软件下载的文件全部都下载再 ~/Downloads/ 文 ...

  7. HDFS shell命令行常见操作

    hadoop学习及实践笔记—— HDFS shell命令行常见操作 附:HDFS shell guide文档地址 http://hadoop.apache.org/docs/r2.5.2/hadoop ...

  8. Shell 命令行,实现对若干网站状态批量查询是否正常的脚本

    Shell 命令行,实现对若干网站状态批量查询是否正常的脚本 如果你有比较多的网站,这些网站的运行状态是否正常则是一件需要关心的事情.但是逐一打开检查那简直是一件太糟心的事情了.所以,我想写一个 sh ...

  9. Shell 命令行 从日志文件中根据将符合内容的日志输出到另一个文件

    Shell 命令行 从日志文件中根据将符合内容的日志输出到另一个文件 前面我写了一篇博文Shell 从日志文件中选择时间段内的日志输出到另一个文件,利用循环实现了我想要实现的内容. 但是用这个脚本的同 ...

随机推荐

  1. 一键安装lnmp-mysql(4)

    mysql(){cd $pathtar zxvf cmake-2.8.11.2.tar.gzcd cmake-2.8.11.2./configuremakemake installcd ..tar z ...

  2. 20145216史婧瑶《Java 程序设计》第4周学习总结

    20145216 <Java程序设计>第4周学习总结 教材学习内容总结 第六章 继承与多态 6.1 何谓继承 继承基本上就是避免多个类间重复定义共同行为. 在Java中,继承时使用exte ...

  3. slf4j日志框架绑定机制

    一.环境搭建 我们以log4j为例,探寻slf4j与log4j的绑定过程. 1.Java类 public class Slf4jBind { public static void main(Strin ...

  4. Import SQL into MySQL with a progress meter

    There is nice tool called pv # On Ubuntu/Debian system $ sudo apt-get install pv # On Redhat/CentOS ...

  5. layer弹出层的关闭及父页面的刷新问题

    当在主页面执行添加或修改时,用弹出层是比较好的选择,如何关闭弹出层并对父级页面进行操作呢 首先在父级页面中打开一个添加页面(弹出层) 在添加页面的表单提交函数中添加如下代码: function for ...

  6. javascript 关于节点

    重复使用对像可以用 var a,b; with(document){ a = getElementById('aID') b = getElementById('bID') } 关于节点访问: par ...

  7. GTS--阿里巴巴分布式事务全新解决方案

    现代IT应用中,服务化SOA作为主流的技术架构被广泛应用到各种信息系统.原来一个系统被分拆成若干个服务的集合,产生了跨服务调用的分布式事务问题.随着Dubbo.SpringCloud等微服务框架的流行 ...

  8. jquery阻止冒泡和阻止默认事件

    event.stopPropagation(); event.preventDefault(); http://www.cnblogs.com/qixuejia/archive/2013/10/10/ ...

  9. 使用ASP.NET 的缓存机制的示例

    if (HttpContext.Current.Cache["code_" + CodeType] == null) { SysCodeService codeService = ...

  10. Apache的三种工作模式及相关配置

    Apache的三种工作模式 作为老牌服务器,Apache仍在不断地发展,就目前来说,它一共有三种稳定的MPM(Multi-Processing Module,多进程处理模块).它们分别是 prefor ...