溜达豆瓣的时候,发现一些图片,懒得一个一个扒,之前写过c#和python版本的图片下载,因此拿之前的Python代码来改了改,折腾出一个豆瓣版本,方便各位使用

  1. # -*- coding:utf8 -*-
  2. import urllib2, urllib, socket
  3. import re
  4. import requests
  5. from lxml import etree
  6. import os, time
  7.  
  8. DEFAULT_DOWNLOAD_TIMEOUT = 30
  9.  
  10. class AppURLopener(urllib.FancyURLopener):
  11. version = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT)"
  12.  
  13. def check_save_path(save_path):
  14. if not os.path.exists(save_path):
  15. os.makedirs(save_path)
  16.  
  17. def get_image_name(image_link):
  18. file_name = os.path.basename(image_link)
  19. return file_name
  20.  
  21. def save_image1(image_link, save_path):
  22. file_name = get_image_name(image_link)
  23. file_path = save_path + "\\" + file_name
  24. print("准备下载{0} 到{1}".format(image_link, file_path))
  25. try:
  26. urllib._urlopener = AppURLopener()
  27. socket.setdefaulttimeout(DEFAULT_DOWNLOAD_TIMEOUT)
  28. urllib.urlretrieve(url=image_link, filename=save_path)
  29. return True
  30. except Exception, ex:
  31. print(ex.args)
  32. print("下载文件出错:{0}".format(ex.message))
  33. return False
  34.  
  35. def save_image(image_link, save_path):
  36. file_name = get_image_name(image_link)
  37. file_path = save_path + "\\" + file_name
  38. print("准备下载{0} 到{1}".format(image_link, file_path))
  39. try:
  40. file_handler = open(file_path, "wb")
  41. image_handler = urllib2.urlopen(url=image_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()
  42. file_handler.write(image_handler)
  43. return True
  44. except Exception, ex:
  45. print("下载文件出错:{0}".format(ex.message))
  46. return False
  47.  
  48. def get_thumb_picture_link(thumb_page_link):
  49. try:
  50. html_content = urllib2.urlopen(url=thumb_page_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()
  51. html_tree = etree.HTML(html_content)
  52. # print(str(html_tree))
  53. link_tmp_list = html_tree.xpath('//div[@class="photo_wrap"]/a[@class="photolst_photo"]/img/@src')
  54. page_link_list = []
  55. for link_tmp in link_tmp_list:
  56. page_link_list.append(link_tmp)
  57. return page_link_list
  58. except Exception, ex:
  59. print(ex.message)
  60. return []
  61.  
  62. def download_pictures(album_link, min_page_id, max_page_id, picture_count_per_page, save_path):
  63. check_save_path(save_path)
  64. min_page_id = 0
  65. while min_page_id < max_page_id:
  66. thumb_page_link = album_link + "?start={0}".format(min_page_id * picture_count_per_page)
  67. thumb_picture_links = get_thumb_picture_link(thumb_page_link)
  68. for thumb_picture_link in thumb_picture_links:
  69. full_picture_link = thumb_picture_link.replace("photo/lthumb", "photo/large")
  70. save_flag = save_image(image_link=full_picture_link, save_path=save_path)
  71. if not save_flag:
  72. full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/photo")
  73. save_image(image_link=full_picture_link, save_path=save_path)
  74. time.sleep(1)
  75. min_page_id += 1
  76. print("下载完成")
  77.  
  78. # 设置图片保存的本地文件夹
  79. save_path = "J:\\douban\\gugu"
  80. # 设置相册地址,注意以反斜杠结尾
  81. album_link = "https://www.douban.com/photos/album/1625969357/"
  82. # 设置相册总页数
  83. max_page_id = 11
  84. # 设置每页图片数量,默认为18张
  85. picture_count_per_page = 18
  86.  
  87. download_pictures(album_link=album_link,
  88. min_page_id=1,
  89. max_page_id=max_page_id,
  90. picture_count_per_page=picture_count_per_page,
  91. save_path=save_path)

=============================================================

相对urllib2来说,urllib 真的比较坑,如果不设置User-Agent,下载速度会超慢无比,另外还需要调用socket模块来设置超时时间,比较折腾,最终可能还会踩到其他坑里去,比如我下着下着就被豆瓣给‘屏蔽’啦,so建议使用urllib2。

相关参考链接:

http://www.jb51.net/article/57239.htm

http://www.crifan.com/use_python_urllib-urlretrieve_download_picture_speed_too_slow_add_user_agent_for_urlretrieve/comment-page-1/

=============================================================

国庆最后一天,祝各位国庆快乐!

python--批量下载豆瓣图片的更多相关文章

  1. 用 Python 批量下载百度图片

    ​ 为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...

  2. 批量下载网站图片的Python实用小工具

    定位 本文适合于熟悉Python编程且对互联网高清图片饶有兴趣的筒鞋.读完本文后,将学会如何使用Python库批量并发地抓取网页和下载图片资源.只要懂得如何安装Python库以及运行Python程序, ...

  3. 批量下载网站图片的Python实用小工具(下)

    引子 在 批量下载网站图片的Python实用小工具 一文中,讲解了开发一个Python小工具来实现网站图片的并发批量拉取.不过那个工具仅限于特定网站的特定规则,本文将基于其代码实现,开发一个更加通用的 ...

  4. python多线程批量下载远程图片

    python多线程使用场景:多线程采集, 以及性能测试等 . 数据库驱动类-简单封装下 mysqlDriver.py #!/usr/bin/python3 #-*- coding: utf-8 -*- ...

  5. python--批量下载豆瓣图片之升级版本

    周末下雨没法出门,刷刷豆瓣看看妹子,本想拿以前脚本下载点图片,结果发现运行失败,之前版本为<python--批量下载豆瓣图片>,报错HTTP Error 403: Forbidden,网上 ...

  6. 用Python批量下载DACC的MODIS数据

    本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...

  7. 用python批量下载图片

    一 写爬虫注意事项 网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...

  8. 用python批量下载贴吧图片 附源代码

    环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片 使用方法: 1.安装python2.7,安装re模块, ...

  9. python批量下载图片的三种方法

    一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: sele ...

  10. python——批量下载图片

    前言 批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片 例子 from html.parser import HTMLParser import urllib.r ...

随机推荐

  1. 基于AWS的云服务架构最佳实践

    ZZ from: http://blog.csdn.net/wireless_com/article/details/43305701 近年来,对于打造高度可扩展的应用程序,软件架构师们挖掘了若干相关 ...

  2. HTML5新增的属性

    关于html5新增的属性: HTML5现在已经不是SGML的子集,主要是增加了关于图像,位置,存储,多任务等功能. 绘画CANVAS; 用于播放媒体的video和audio元素: 本地离线存储loca ...

  3. Clone

    Clone: 构建一个对象的时候,是不是一定要调用构造函数! package com.edu.test; public class Zhenzhen implements Cloneable{ pub ...

  4. Qt 4.x调试器问题,缺失调试助手。

    之前项目开发需要用到4.x环境,固定多少版本避免团队开发不协调,然后拿了同事的开发包安装[注:我本子上原来就有4.x版本跟5.x版本,只是对应的4.x跟需求的不一样] creator是2.4.1的,同 ...

  5. 图片预加载和AJAX的图片预加载

    利用js实现图片预加载,加载所需要图片的路径与名称即可,很容易实现,该方法尤其适用预加载大量的图片: <div class="hidden"> <script t ...

  6. 51nod 1138 连续整数的和(数学公式)

    1138 连续整数的和 #include <iostream> #include <cmath> #include <cstdio> using namespace ...

  7. Python小练习一

    # 对http://www.something.com形式的URL进行分割 url = input("Please enter the URL:") domain = url[11 ...

  8. mac系统 下 npm 安装 bower报错

    在mac终端运行 sudo npm install -g bower (安装之前你要确定你已经成功安装了node 和 git) 然后会报错 like this: npm ERR! Darwin 15. ...

  9. bootstrap框架 导航条组件使用

    本文记载boot 导航条组件使用方法 导航条组件 导航条是在您的应用或网站中作为导航页头的响应式基础组件.它们在移动设备上可以折叠(并且可开可关),且在视口(viewport)宽度增加时逐渐变为水平展 ...

  10. 天气预报API(六):中国气象频道、腾讯天气--“新编码”接口的测试

    说明 本文所有测试均以青岛为例. 本文所列接口城市代码(cityid)参数都使用的 "新编码": 全国城市代码列表(新) 本文接口均不是官方接口,仅供测试使用! 腾讯天气 空气质量 ...