python--批量下载豆瓣图片

溜达豆瓣的时候，发现一些图片，懒得一个一个扒，之前写过c#和python版本的图片下载，因此拿之前的Python代码来改了改，折腾出一个豆瓣版本，方便各位使用

# -*- coding:utf8 -*-

import urllib2, urllib, socket

import re

import requests

from lxml import etree

import os, time

DEFAULT_DOWNLOAD_TIMEOUT = 30

class AppURLopener(urllib.FancyURLopener):

    version = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT)"

def check_save_path(save_path):

    if not os.path.exists(save_path):

        os.makedirs(save_path)

def get_image_name(image_link):

    file_name = os.path.basename(image_link)

    return file_name

def save_image1(image_link, save_path):

    file_name = get_image_name(image_link)

    file_path = save_path + "\\" + file_name

    print("准备下载{0} 到{1}".format(image_link, file_path))

    try:

        urllib._urlopener = AppURLopener()

        socket.setdefaulttimeout(DEFAULT_DOWNLOAD_TIMEOUT)

        urllib.urlretrieve(url=image_link, filename=save_path)

        return True

    except Exception, ex:

        print(ex.args)

        print("下载文件出错:{0}".format(ex.message))

        return False

def save_image(image_link, save_path):

    file_name = get_image_name(image_link)

    file_path = save_path + "\\" + file_name

    print("准备下载{0} 到{1}".format(image_link, file_path))

    try:

        file_handler = open(file_path, "wb")

        image_handler = urllib2.urlopen(url=image_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()

        file_handler.write(image_handler)

        return True

    except Exception, ex:

        print("下载文件出错:{0}".format(ex.message))

        return False

def get_thumb_picture_link(thumb_page_link):

    try:

        html_content = urllib2.urlopen(url=thumb_page_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()

        html_tree = etree.HTML(html_content)

        # print(str(html_tree))

        link_tmp_list = html_tree.xpath('//div[@class="photo_wrap"]/a[@class="photolst_photo"]/img/@src')

        page_link_list = []

        for link_tmp in link_tmp_list:

            page_link_list.append(link_tmp)

        return page_link_list

    except Exception, ex:

        print(ex.message)

        return []

def download_pictures(album_link, min_page_id, max_page_id, picture_count_per_page, save_path):

    check_save_path(save_path)

    min_page_id = 0

    while min_page_id < max_page_id:

        thumb_page_link = album_link + "?start={0}".format(min_page_id * picture_count_per_page)

        thumb_picture_links = get_thumb_picture_link(thumb_page_link)

        for thumb_picture_link in thumb_picture_links:

            full_picture_link = thumb_picture_link.replace("photo/lthumb", "photo/large")

            save_flag = save_image(image_link=full_picture_link, save_path=save_path)

            if not save_flag:

                full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/photo")

                save_image(image_link=full_picture_link, save_path=save_path)

            time.sleep(1)

        min_page_id += 1

    print("下载完成")

# 设置图片保存的本地文件夹

save_path = "J:\\douban\\gugu"

# 设置相册地址，注意以反斜杠结尾

album_link = "https://www.douban.com/photos/album/1625969357/"

# 设置相册总页数

max_page_id = 11

# 设置每页图片数量，默认为18张

picture_count_per_page = 18

download_pictures(album_link=album_link,

                  min_page_id=1,

                  max_page_id=max_page_id,

                  picture_count_per_page=picture_count_per_page,

                  save_path=save_path)

=============================================================

相对urllib2来说，urllib 真的比较坑，如果不设置User-Agent，下载速度会超慢无比，另外还需要调用socket模块来设置超时时间，比较折腾，最终可能还会踩到其他坑里去，比如我下着下着就被豆瓣给‘屏蔽’啦，so建议使用urllib2。

python--批量下载豆瓣图片的更多相关文章

用 Python 批量下载百度图片
为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...
批量下载网站图片的Python实用小工具
定位本文适合于熟悉Python编程且对互联网高清图片饶有兴趣的筒鞋.读完本文后,将学会如何使用Python库批量并发地抓取网页和下载图片资源.只要懂得如何安装Python库以及运行Python程序, ...
批量下载网站图片的Python实用小工具（下）
引子在批量下载网站图片的Python实用小工具一文中,讲解了开发一个Python小工具来实现网站图片的并发批量拉取.不过那个工具仅限于特定网站的特定规则,本文将基于其代码实现,开发一个更加通用的 ...
python多线程批量下载远程图片
python多线程使用场景:多线程采集, 以及性能测试等 . 数据库驱动类-简单封装下 mysqlDriver.py #!/usr/bin/python3 #-*- coding: utf-8 -*- ...
python--批量下载豆瓣图片之升级版本
周末下雨没法出门,刷刷豆瓣看看妹子,本想拿以前脚本下载点图片,结果发现运行失败,之前版本为<python--批量下载豆瓣图片>,报错HTTP Error 403: Forbidden,网上 ...
用Python批量下载DACC的MODIS数据
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...
用python批量下载图片
一写爬虫注意事项网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...
用python批量下载贴吧图片附源代码
环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片使用方法: 1.安装python2.7,安装re模块, ...
python批量下载图片的三种方法
一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: sele ...
python——批量下载图片
前言批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片例子 from html.parser import HTMLParser import urllib.r ...

随机推荐

C++中关于文件的读写
在C++的学习过程中,我们时常要用到对文件的操作,下面我们讲一下文件的读写. 首先,读.也就是把已有的文件读到控制台上,那么如何操作呢?首先要将文件操作的输入输出流包含进去. <fstream& ...
[05]APUE：标准 I/O 库
[a] setvbuf / setbuf #include <stdio.h> int setvbuf(FILE *restrict fp, char *restrict buf, int ...
ios6 滤镜相关知识内容网址
http://blog.csdn.net/justinjing0612/article/details/8145607#
pip 国内源 gem 国内源
清华: https://pypi.tuna.tsinghua.edu.cn/simple 豆瓣: http://pypi.douban.com/simple/ 阿里: http://mirrors.a ...
C# 加密
一.RSA加密解密 using System; using System.Collections.Generic; using System.IO; using System.Linq; using ...
MyBatis使用动态SQL标签的小陷阱
现在MyBatis越来越受大家的喜爱了,它的优势大家都知道,我就不多说了,直接说重点. MyBatis中提供动态SQL功能,我们可以使用<if><when><where& ...
Js之AJAX
var xmlHttp; function createHttp() { try { xmlHttp = new XMLHttpRequest(); } catch (e) { xmlHttp = n ...
在app中打开appStore中其他app
var str = "https://itunes.apple.com/cn/app/zhang-jiange-hao-tou-zi-ke/id402382976?mt=8"//这 ...
VS2013正确设置DLL环境变量目录的方法
VS有个比较迷惑人的选项,就是在工程>>属性中有个Executable Directories设置项, 几乎所有地球人都认为这个选项是设置exe可执行文件依赖的DLL目录用的,这无疑会方便 ...
python3下安装Django
1.下载python3 https://www.Python.org/ 我下载的是Python3.5.1 选的 Windows x86-64 executable installer 2. 打开cmd ...

python--批量下载豆瓣图片

python--批量下载豆瓣图片的更多相关文章

随机推荐

热门专题