【pyhon】nvshens图片批量下载爬虫1.01
# nvshens图片批量下载爬虫1.01 # 原先版本在遇到网络故障时回下载不全,这回更改了模式使得下载不成就重新下载,直到全部下载完毕 from bs4 import BeautifulSoup import requests import time import urllib.request user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)' headers={'User-Agent':user_agent} # 找到的图片 pictures=[] # 不断追逐,直到结束 def crawl(url): print("爬取页面"+url); try: rsp=requests.get(url,headers=headers) soup= BeautifulSoup(rsp.text,'html.parser',from_encoding='utf-8') nextUrl="none"; for divs in soup.find_all(class_="gallery_wrapper"): # 把找到的图片放到数组里去 for img in divs.find_all('img'): print(img.get("src")) pictures.append(img.get("src")) #找下一页 for link in divs.find_all('a',class_='a1'): if link.string=='下一页' and link.get("href").find('.html')!=-1: nextUrl='https://www.nvshens.com'+link.get("href"); #if len(pictures)>10: # downloadPics() #time.sleep(5) if nextUrl!="none": print("前往下一页"); crawl(nextUrl) else: print('爬取结束,开始下载...') downloadPics() print('下载结束,nvshens图片批量下载爬虫工作完毕.') except Exception as e: print("发生异常。重新爬行")# 不管怎么出现的异常,就让它一直爬到底 crawl(url) # 下载图片到本地 def downloadPics(): while(len(pictures)>0): pic=pictures.pop() name=pic.split('/')[-1] try: rsp=urllib.request.urlopen(pic) img=rsp.read() with open(name,'wb') as f: f.write(img) print('图片'+pic+'下载完成') except Exception as e: print('图片'+pic+'下载异常,塞回重试') pictures.append(pic); # Kickoff Start # https://www.nvshens.com/g/22268/ crawl('https://www.nvshens.com/g/22210/')
输出:
C:\Users\horn1\Desktop\python\7>python downloadall.py 爬取页面https://www.nvshens.com/g/22210/ C:\Users\horn1\AppData\Local\Programs\Python\Python36\lib\site-packages\bs4\__init__.py:146: UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored. warnings.warn("You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.") https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg https://img.onvshen.com:85/gallery/23789/22210/s/001.jpg https://img.onvshen.com:85/gallery/23789/22210/s/002.jpg https://img.onvshen.com:85/gallery/23789/22210/s/003.jpg https://img.onvshen.com:85/gallery/23789/22210/s/004.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/2.html https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg https://img.onvshen.com:85/gallery/23789/22210/s/006.jpg https://img.onvshen.com:85/gallery/23789/22210/s/007.jpg https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg https://img.onvshen.com:85/gallery/23789/22210/s/009.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/3.html https://img.onvshen.com:85/gallery/23789/22210/s/010.jpg https://img.onvshen.com:85/gallery/23789/22210/s/011.jpg https://img.onvshen.com:85/gallery/23789/22210/s/012.jpg https://img.onvshen.com:85/gallery/23789/22210/s/013.jpg https://img.onvshen.com:85/gallery/23789/22210/s/014.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/4.html https://img.onvshen.com:85/gallery/23789/22210/s/015.jpg https://img.onvshen.com:85/gallery/23789/22210/s/016.jpg https://img.onvshen.com:85/gallery/23789/22210/s/017.jpg https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/5.html https://img.onvshen.com:85/gallery/23789/22210/s/020.jpg https://img.onvshen.com:85/gallery/23789/22210/s/021.jpg https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg https://img.onvshen.com:85/gallery/23789/22210/s/023.jpg https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/6.html https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg https://img.onvshen.com:85/gallery/23789/22210/s/026.jpg https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg https://img.onvshen.com:85/gallery/23789/22210/s/029.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/7.html https://img.onvshen.com:85/gallery/23789/22210/s/030.jpg https://img.onvshen.com:85/gallery/23789/22210/s/031.jpg https://img.onvshen.com:85/gallery/23789/22210/s/032.jpg https://img.onvshen.com:85/gallery/23789/22210/s/033.jpg https://img.onvshen.com:85/gallery/23789/22210/s/034.jpg 前往下一页 爬取页面https://www.nvshens.com/g/22210/8.html https://img.onvshen.com:85/gallery/23789/22210/s/035.jpg https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg https://img.onvshen.com:85/gallery/23789/22210/s/037.jpg https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg 爬取结束,开始下载... 图片https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/037.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/035.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/034.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/033.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/032.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/031.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/030.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/029.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/026.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/023.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/021.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/020.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/017.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/016.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/015.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/014.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/013.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/012.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/011.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/010.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/009.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/007.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/006.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/004.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/003.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/002.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/001.jpg下载完成 图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载异常,塞回重试 图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载完成 下载结束,nvshens图片批量下载爬虫工作完毕.
:)
【pyhon】nvshens图片批量下载爬虫1.01的更多相关文章
- Node.js nvshens图片批量下载爬虫1.01
//====================================================== // nvshens图片批量下载爬虫1.01 // 用最近的断点续传框架改写原有1.0 ...
- 【pyhon】nvshens图片批量下载爬虫
代码: # nvshens图片批量下载爬虫 from bs4 import BeautifulSoup import requests import time import urllib.reques ...
- Node.js mm131图片批量下载爬虫1.01 增加断点续传功能
这里的断点续传不是文件下载时的断点续传,而是指在爬行页面时有时会遇到各种网络中断而从中断前的页面及其数据继续爬行的过程,这个过程和断点续传原理上相似故以此命名.我的具体做法是:在下载出现故障或是图片已 ...
- Node.js nvshens图片批量下载爬虫 1.00
//====================================================== // www.nvshens.com图片批量下载Node.js爬虫1.00 // 此程 ...
- Node.js meitulu图片批量下载爬虫1.01版
在 http://www.cnblogs.com/xiandedanteng/p/7614051.html 一文我曾经书写过一个图片下载爬虫,但原有程序不是为下载图片而设计故有些绕,于是稍微改写了一下 ...
- 【pyhon】nvshens按目录图片批量下载爬虫1.00(多线程版)
# nvshens按目录图片批量下载爬虫1.00(多线程版) from bs4 import BeautifulSoup import requests import datetime import ...
- Node.js abaike图片批量下载爬虫1.02
//====================================================== // abaike图片批量下载爬虫1.02 // 用最近的断点续传框架改写原有1.01 ...
- Node.js meitulu图片批量下载爬虫1.051
原有1.05版程序没有断点续传模式,现在在最近程序基础上改写一版1.051. //====================================================== // m ...
- Node.js mzitu图片批量下载爬虫1.00
又攻下一座山头. //====================================================== // mzitu图片批量下载爬虫1.00 // 2017年11月19 ...
随机推荐
- Ubuntu下修改ubuntu源,完成Redis Desktop Manager的安装
原文地址: http://blog.csdn.net/u013410747/article/details/51706964 免费下载链接:http://pan.baidu.com/s/1cA3jWU ...
- FFTW3学习笔记3:FFTW 和 CUFFT 的使用对比
一.流程 1.使用cufftHandle创建句柄 2.使用cufftPlan1d(),cufftPlan3d(),cufftPlan3d(),cufftPlanMany()对句柄进行配置,主要是配置句 ...
- 【UOJ #110】【APIO 2015】Bali Sculptures
http://uoj.ac/problem/110 这道题subtask4和subtask5是不同的算法. 主要思想都是从高位到低位贪心确定答案. 对于subtask4,n比较小,设\(f(i,j)\ ...
- 修改npm仓库地址
在C:\Users\Administrator文件夹下找到.npmrc 添加registry = http://registry.cnpmjs.org淘宝镜像地址,保存
- poj 1456 贪心+STL
题意:有n个商品,每个商品如果能在截止日期之前售出就会获得相应利益,求能获得的最大利益 一开始对每个时间进行贪心,后来发现后面的商品可以放到之前来卖,然后就wa了 这里就直接对价格排序,把物品尽量放到 ...
- 最短路:我的理解--Dijkstra算法
最短路径:Dijkstra算法 用来计算从一个点到其他所有点的最短路径的算法,是一种单源最短路径算法.也就是说,只能计算起点只有一个的情况. Dijkstra的时间复杂度是O (N2),它不能处理存在 ...
- April Fools Day Contest 2016 F. Ace It!
F. Ace It! 题目连接: http://www.codeforces.com/contest/656/problem/F Description Input The only line of ...
- [原]Redis使用场景及使用经验
Redis is an open source (BSD licensed), in-memory data structure store! 欢迎转载,转载请注明出处 刚刚结束一个游戏类的活动项目, ...
- 配置Maven环境变量与Intelij IDE配置Maven
Maven有什么用? 以前我们导入第三方jar包的流程是什么?一般是download,然后copy到项目中,然后依赖(library)项目,最后被我们使用. 通俗的说,就是不用我们自己去downloa ...
- Mahout学习之Mahout简单介绍、安装、配置、入门程序測试
一.Mahout简单介绍 查了Mahout的中文意思--驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的 ...