shell爬取斗图网

#!/bin/bash

read -p "请输入要爬取的页面数(默认为10)：" page_num

page_num=${page_num:-}

echo $page_num

read -p "请输入要保存的目录名称(默认为img)：" save_path_name

save_path_name=${save_page_name:-"/opt/img"}

[ ! -d $save_path_name ]&&mkdir $save_path_name

echo $save_path_name

for i in `seq  $page_num`

do

base_url="http://www.doutula.com/article/list/?page=${i}"

#循环N次，将需要下载的img的url保存到imgurl.txt

echo "当前处理第$i个url"

curl $base_url | egrep -o '(<img)()*(.*)(data-original=")(.*)"(.*)(>)' | egrep -o '(data-original=")(.*)"' | sed -r 's/" data-backup=.*?//g;s/data-original="//g'  >> $save_path_name/imgurl.txt

done

#计数

file_count=;

#一行一行遍历刚刚保存url的imgurl.txt文件

#sort imgurl.txt | uniq 代表去除重复行

for line in `sort $save_path_name/imgurl.txt | uniq`

do

    #%s 从1970年1月1日00::00到目前经历的秒数 ,%N当前时间的纳秒数据 ， $(date +%s%N)即秒数 + 纳秒，保证文件名唯一

    #curl -o 表示把输出写到该文件中，即指定文件名并写到文件

    type=${line##*.}

    file_name=$(date +%s%N)".$type"

    file_count=`expr $file_count + `

    echo "当前下载第$file_count个图片"

    curl -o $save_path_name/$file_name $line

done

[root@L shells]# vim doutu.sh

[root@L shells]# cat doutu.sh

#!/bin/bash

read -p "请输入要爬取的页面数(默认为10)：" page_num

page_num=${page_num:-}

echo $page_num

read -p "请输入要保存的目录名称(默认为img)：" save_path_name

save_path_name=${save_page_name:-"/opt/img"}

[ ! -d $save_path_name ]&&mkdir $save_path_name

echo $save_path_name

for i in `seq  $page_num`

do

base_url="http://www.doutula.com/article/list/?page=${i}"

#循环N次，将需要下载的img的url保存到imgurl.txt

echo "当前处理第$i个url"

curl $base_url | egrep -o '(<img)()*(.*)(data-original=")(.*)"(.*)(>)' | egrep -o '(data-original=")(.*)"' | sed -r 's/" data-backup=.*?//g;s/data-original="//g'  >> $save_path_name/imgurl.txt

done

#计数

file_count=;

#一行一行遍历刚刚保存url的imgurl.txt文件

#sort imgurl.txt | uniq 代表去除重复行

for line in `sort $save_path_name/imgurl.txt | uniq`

do

    #%s 从1970年1月1日00::00到目前经历的秒数 ,%N当前时间的纳秒数据 ， $(date +%s%N)即秒数 + 纳秒，保证文件名唯一

    #curl -o 表示把输出写到该文件中，即指定文件名并写到文件

    type=${line##*.}

    file_name=$(date +%s%N)".$type"

    file_count=`expr $file_count + `

    echo "当前下载第$file_count个图片"

    curl -o $save_path_name/$file_name $line

done

shell爬取斗图网的更多相关文章

爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
python爬取斗图网中的 “最新套图”和“最新表情”
1.分析斗图网斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页可见,每一页的地址栏只有后面的pag ...
python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...
py3+requests+urllib+bs4+threading，爬取斗图图片
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688. ...
Python爬取斗图表情，让你成为斗图大佬
话不多说,上结果(只爬了10页内容) 上代码:(可直接运行) 用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/ ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...

随机推荐

hadoop(二MapReduce)
hadoop(二MapReduce) 介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起. Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理.可以进行拆分的前提是这 ...
Java没有引用传递机制，C#有。
Java没有引用传递机制,C#有: public class Obj { private Integer myValue; public Integer getMyValue() { return m ...
【AtCoder】ARC060
ARC060 C - 高橋君とカード / Tak and Cards 每个数减去A,然后转移N次,每次选或不选,最后是和为0的时候的方案数,负数可以通过把所有数右移2500做到 #include &l ...
log4j一些配置用法
Log4j基本用法----日志级别基本使用方法: Log4j由三个重要的组件构成:日志信息的优先级,日志信息的输出目的地,日志信息的输出格式.日志信息的优先级从高到低有ERROR.WARN.INFO ...
（十三）springMvc 处理 Json
目录文章目录为什么用 Json 处理 json 的流程环境准备配置 json 转换器后记更新为什么用 Json Json 格式简单,语法简单,解析简单 : 处理 json 的流程判断客 ...
（MVC — — Demo）客户管理系统的开发日志
点击一下目录第一步:搭建开发环境第二步:层次包(按照三层架构思想写) 第四步:开发(utils)工具包第四步:开发 Dao 层第五步:开发 services 层第六步:开发 factory ...
用pandas库对csv文件中的文本数据进行分析处理
#数据分析 import pandas import csv old_path = r'd:\2000W\200W-400W.csv' f = open(old_path,'r',encoding=' ...
Django的URLconf
URL 概要我们要在Django项目中为应用程序设计URL,我们可以创建一个名为URLconf(通常为urls.py)的Python模块.这个模块是纯Python代码,是一个简单的正则表达式到Pyt ...
Codeforces 1247F. Tree Factory
传送门正难则反,把链操作成树不好想,那么考虑一下如何把树变成链每次操作相当于把一个兄弟变成儿子(我把你当兄弟你竟然想把我当儿子.jpg) 注意到每次操作最多只能使树的深度增加 $1$ 因为链的深度 ...
MySQL 并发事务问题以及事务的隔离级别
一.并发事务处理带来的问题相对于串行处理,并发事务(InnoDB)处理能大大增加数据库资源的利用率,提高数据库系统的事务吞吐量,从而可以支持更多用户. 但并发事务处理也会带来一些问题,主要有一下几种 ...

shell爬取斗图网

shell爬取斗图网的更多相关文章

随机推荐

热门专题