python--批量下载豆瓣图片之升级版本

周末下雨没法出门，刷刷豆瓣看看妹子，本想拿以前脚本下载点图片，结果发现运行失败，之前版本为《python--批量下载豆瓣图片》，报错HTTP Error 403: Forbidden，网上一堆的文章都是写在request的header中添加User-Agent模拟浏览器请求就可以解决，但毫无卵用！

在调试过程中无意发现，及时在浏览器地址栏中手动输入图片地址，也出现430 Forbidden的提示，百度一上午没找到答案，略微郁闷，考虑到手动能点击链接能显示图片，于是想通过模拟浏览器操作的方式来自动保存图片，百度一下午Selenium WebDriver，发现图片也显示出来了，就是没法右键保存，百度又是人云亦云的那些东西，折腾很久也没成功。

今天灵光一线，既然手动点击链接变可以，为啥通过地址栏输入的链接就不行呢，两种方式的地址完全相同，不存在手动点击链接后链接变化的问题，那问题会不会就出在两种请求所附带的请求数据上，由于是get方式，请求数据都存放请求头和URL链接中，通过Firefox的开发者工具>>开发者工具栏>>网络选项可以看到请求头内容：

尝试在脚本中也增加请求头中添加Referer项，发现程序顺利通过，看来豆瓣通过这一项来判断，就跟空手去人家婚礼蹭饭一样，不弄个红包装一下，很可能会被打出来！

在图片显示窗口，右键“查看页面信息”，也可以很容易找到引用URL一项：

代码附上：

# -*- coding:utf8 -*-

import urllib2, urllib, socket

import re

import requests

from lxml import etree

import os, time, random

DEFAULT_DOWNLOAD_TIMEOUT = 30

def check_save_path(save_path):

    if not os.path.exists(save_path):

        os.makedirs(save_path)

def get_image_name(image_link):

    file_name = os.path.basename(image_link)

    return file_name

def get_image_id(file_name):

    file_id = file_name[0: file_name.rindex('.')]

    return file_id

def save_image(image_link, save_path):

    file_name = get_image_name(image_link)

    file_id = get_image_id(file_name)

    file_path = save_path + "\\" + file_name

    print("准备下载{0} 到{1}".format(image_link, file_path))

    try:

        headers = {}

        headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'

        headers["Referer"] = 'https://site.douban.com/239506/widget/photos/190120540/photo/{0}/'.format(file_id)

        file_handler = open(file_path, "wb")

        req = urllib2.Request(url=image_link, headers=headers)

        opener = urllib2.build_opener()

        image_handler = opener.open(req).read()

        file_handler.write(image_handler)

        return True

    except Exception, ex:

        print(ex.args)

        print("下载文件出错:{0}".format(ex.message))

        return False

def get_thumb_picture_link(thumb_page_link):

    try:

        html_content = urllib2.urlopen(url=thumb_page_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()

        html_tree = etree.HTML(html_content)

        # print(str(html_tree))

        link_tmp_list = html_tree.xpath('//div[@class="photo-item"]/a/img/@src')

        page_link_list = []

        for link_tmp in link_tmp_list:

            page_link_list.append(link_tmp)

        return page_link_list

    except Exception, ex:

        print(ex.message)

        return []

def download_pictures(album_link, min_page_id, max_page_id, picture_count_per_page, save_path):

    check_save_path(save_path)

    min_page_id = 0

    while min_page_id < max_page_id:

        thumb_page_link = album_link + "?start={0}".format(min_page_id * picture_count_per_page)

        thumb_picture_links = get_thumb_picture_link(thumb_page_link)

        for thumb_picture_link in thumb_picture_links:

            full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/raw")

            print('<img src="{0}"/>'.format(full_picture_link))

            print("thumb:" + thumb_picture_link)

            full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/raw")

            save_flag = save_image(image_link=full_picture_link, save_path=save_path)

            if not save_flag:

                full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/photo")

                save_image(image_link=full_picture_link, save_path=save_path)

            time.sleep(1)

        min_page_id += 1

    print("下载完成")

# 设置图片保存的本地文件夹

save_path = "E:\\PIC\\douban_11\\"

# 设置相册地址，注意以反斜杠结尾

album_link = "https://site.douban.com/239506/widget/photos/190120540/"

# 设置相册总页数

max_page_id = 20

# 设置每页图片数量，默认为18张

picture_count_per_page = 30

download_pictures(album_link=album_link,

                  min_page_id=1,

                  max_page_id=max_page_id,

                  picture_count_per_page=picture_count_per_page,

                  save_path=save_path)

##====================================================================##

感叹下，以前学html以及做网页开发的时候，很少关心请求头，顶多就知道GET和POST的区别，白白浪费一个周末研究，可惜！

幸好失败是成功它妈妈，吃一堑长一智！

##====================================================================##

没点好图你们是不会罢休的，哇咔咔！

python--批量下载豆瓣图片之升级版本的更多相关文章

用 Python 批量下载百度图片
为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...
批量下载网站图片的Python实用小工具
定位本文适合于熟悉Python编程且对互联网高清图片饶有兴趣的筒鞋.读完本文后,将学会如何使用Python库批量并发地抓取网页和下载图片资源.只要懂得如何安装Python库以及运行Python程序, ...
批量下载网站图片的Python实用小工具（下）
引子在批量下载网站图片的Python实用小工具一文中,讲解了开发一个Python小工具来实现网站图片的并发批量拉取.不过那个工具仅限于特定网站的特定规则,本文将基于其代码实现,开发一个更加通用的 ...
python多线程批量下载远程图片
python多线程使用场景:多线程采集, 以及性能测试等 . 数据库驱动类-简单封装下 mysqlDriver.py #!/usr/bin/python3 #-*- coding: utf-8 -*- ...
用Python批量下载DACC的MODIS数据
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...
用python批量下载图片
一写爬虫注意事项网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...
用python批量下载贴吧图片附源代码
环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片使用方法: 1.安装python2.7,安装re模块, ...
python批量下载图片的三种方法
一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: sele ...
python——批量下载图片
前言批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片例子 from html.parser import HTMLParser import urllib.r ...

随机推荐

js网页返回顶部和楼层跳跃的实现原理
这是简单的效果图. (实现楼层间的跳跃,主要依靠的是 window.scrollTo(x,y)方法 ,将浏览器的可见区域移动到指定的x,y坐标上.) 说楼层跳跃前,先温习下,一般网页在高度较大时, ...
isupper()函数
isupper()函数可以用来判断字符c是否为大写英文字母! 原型:extern int isupper(int c); 头文件:ctype.h 功能:判断字符c是否为大写英文字母说明:当参数c为大 ...
51Nod 1090 3个数和为0(暴力)
1090 3个数和为0 基准时间限制:1 秒空间限制:131072 KB 分值: 5 难度:1级算法题给出一个长度为N的无序数组,数组中的元素为整数,有正有负包括0,并互不相等.从 ...
[bzoj4592] [Shoi2015]脑洞治疗仪
题面无法直视系列. 中规中矩的线段树题. 涉及的操作有:区间赋值为0,计算区间内1的个数,区间赋值为1,求区间内最大的连续的1的个数. #include<cstdio> #include& ...
UVa 725 简单枚举+整数转换为字符串
Division Write a program that finds and displays all pairs of 5-digit numbers that between them use ...
HDU 2063 过山车（模板—— 二分图最大匹配问题）
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=2063 解题思路: 二分图最大匹配模板题. AC代码: #include<stdio.h> ...
window下spyder的快捷键
块注释/块反注释 Ctrl + 4/5 断点设置 F12 关闭所有 Ctrl + Shift + W 代码完成 Ctrl +空格键条件断点 SHIFT + F12 配置 F6 复制 Ctrl + C ...
Sublime 安装、插件CoolFormat
http://www.sublimetext.com/3 安装Package Control https://packagecontrol.io/installation#st3 安装插件Cool F ...
版本控制——TortoiseSVN （4）多版本并行开发 B
=================================版权声明================================= 版权声明:原创文章禁止转载请通过右侧公告中的“联系邮 ...

python--批量下载豆瓣图片之升级版本

python--批量下载豆瓣图片之升级版本的更多相关文章

随机推荐

热门专题