关于python 爬虫遇到的反盗链

首先声明：目标网址是从别人案例里得到的，内容你懂的。。。

本来闲来无事，学习下爬虫的知识，遇到恶心的反盗链，好在目标网址防盗链简单，代码里注明了如何去查看目标网址的防盗检查；

防盗链原理

http标准协议中有专门的字段记录referer

一来可以追溯上一个入站地址是什么

二来对于资源文件，可以跟踪到包含显示他的网页地址是什么

因此所有防盗链方法都是基于这个Referer字段

防盗链的作用

在很多地方，如淘宝、拍拍、有啊等C2C网站，发布商品需要对宝贝进行描述，就需要图片存储，而为了使自己辛辛苦苦拍摄的图片不被别人调用，就需要防盗链的功能。

提供防盗链的图片网站很多，如有照片、又拍网、百度相册、QQ相册、网易相册等等，但是既能支持网店外链，又有防盗链功能的网站很少；

上述原理部分具体详细解释请再百度；

#!/usr/bin/env python

#coding:utf-8

#date 20171202

#author maomao

from bs4 import BeautifulSoup

import os

import requests

import sys

reload(sys)

sys.setdefaultencoding('gbk')   ###解决windows 下python 中文的编码问题

class DownLoadBeautiful(object):

    def __init__(self,URL):

        self.URL = URL

    def allUrls(self):

        headers = {

            'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"

        }                                                             ###设置请求的头部，伪装成浏览器

        start_html = requests.get(self.URL,headers=headers)           ###使用了更为人性化的requests来发送请求

        soup = BeautifulSoup(start_html.text,'lxml')                 ###使用BS4 框架来解析网页源码

        hreflist = soup.find('div',attrs={'class':'all'}).find_all('a')      ###查找主页里面所有的图片链接html标签

        for href in hreflist:

            title = href.get_text()                                      ###图片链接的具体中文描述

            path = str(title).strip()

            os.makedirs(os.path.join("D:\meizitu",path))               ###在本地创建保存

            os.chdir("D:\meizi\\"+path)

            hrefs = href['href']                                        ###获取图片的URL

            html = requests.get(hrefs,headers=headers)                   ###请求图片的URL

            html_soup = BeautifulSoup(html.text,'lxml')                 ###解析图片URL的网页源码

            max_span = html_soup.find('div',attrs={'class':'pagenavi'}).find_all('span')[-2].get_text()  ###分析图片一共多少页

            for page in xrange(1,int(max_span)+1):

                page_url = hrefs + '/' + str(page)                       ###拼接每张图片的URL

                img_html = requests.get(page_url,headers=headers)         ###请求每张图片的URL

                img_soup = BeautifulSoup(img_html.text,'lxml')            ###解析每张图片的源码

                img_url = img_soup.find('div',attrs={'class':'main-image'}).find('img')['src'] ####查找实际每张图片的具体地址

                headers = {

                    'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

                    'Referer':page_url

                }                                                         ###因为网站有防盗链，重新设置了头部的Referer ；F12里打开网络监听，在Request Headers 里面

                img = requests.get(img_url,headers=headers,stream=True)   ###请求图片的实际URL

                print img.url

                name = img_url[-9:-4]

                f = open(name+'.jpg','wb')                               ###将图片下载并保存，注意对于多媒体文件，必须使用二进制写入

                f.write(img.content)

                f.close()

if __name__ == "__main__":

    test = DownLoadBeautiful("http://www.mzitu.com/all")

    test.allUrls()

以上代码，基本功能已实现，还有很多需要改进的地方：使用代理服务器、并发爬取、日志功能、容错机制等等；

过程是最终要的，爬虫的知识还有很多，继续学习ing

关于python 爬虫遇到的反盗链的更多相关文章

Referer反反盗链
0x00 前言最近用Python非常多,确实感受到了Python的强大与便利.但同时我并没有相见恨晚的感觉,相反我很庆幸自己没有太早接触到Python,而是基本按着C→C++→Java→Python ...
通过设置Referer反"反盗链"
package cn.searchphoto.util; import java.io.File; import java.io.FileOutputStream; import java.io.In ...
对付"反盗链"
对付"反盗链" 某些站点有所谓的反盗链设置,其实说穿了很简单, 就是检查你发送请求的header里面,referer站点是不是他自己, 所以我们只需要像把headers的refer ...
sevlet实现反盗链
有时候为了网站的版权和安全问题,我们需要为我们的网站应用设置防盗链,这样可以保证我们网站的一些资源的安全性.防盗链的主要是通过获取http的请求头referer的信息来和我们的网站地址做对比,如果相同 ...
跳过图片反盗链js
页面增加<iframe> <iframe id="ifa" style="display:none" /> 原来html: <im ...
Python爬虫开发：反爬虫措施以及爬虫编写注意事项
python 爬虫 urllib模块反爬虫机制UA
方法: 使用urlencode函数 urllib.request.urlopen() import urllib.request import urllib.parse url = 'https:// ...
python爬虫之字体反爬
一.什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴.爬取操作时,使用的还是标准的Unicod ...
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...

随机推荐

centos使用docker安装tomcat8
下载镜像 docker pull tomcat:8 启动 docker run -d -p 8080:8080 -v /data/tomcat/webapps/:/usr/local/tomcat/w ...
JAVA直接连接Redis
引入maven <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</ ...
IDEA设置默认maven配置
我们有时候自己在本机上配置了一个maven环境.但是IDEA每次新开一个项目都要重新选择一个maven的配置就很麻烦,可以使用这个进行设置默认的maven配置有的版本IDEA不同显示的内容和图片的不 ...
再谈多线程模型之生产者消费者（多生产者和单一消费者）（c++11实现）
0.关于为缩短篇幅,本系列记录如下: 再谈多线程模型之生产者消费者(基础概念)(c++11实现) 再谈多线程模型之生产者消费者(单一生产者和单一消费者)(c++11实现) 再谈多线程模型之生产者消费 ...
【LeetCode】1118. Number of Days in a Month 解题报告(C++)
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法判断是否是闰年日期题目地址:https://lee ...
警惕！PHP、Node、Ruby 和 Python 应用，漏洞还没结束！
12 月 10 日凌晨,Apache 开源项目 Log4j2 的远程代码执行漏洞细节被公开,作为当前全球使用最广泛的 java 日志框架之一.该漏洞影响着很多全球使用量前列的开源组件,如 Apache ...
bootstrap可编辑下拉框jquery.editable-select
搜了半天发现在某处下载jquery.editable-select需要积分,于是整理出来方便其他人. 先上下载链接: http://pan.baidu.com/s/1kUXvwlL pas ...
Codeforces 339B：Xenia and Ringroad（水题）
time limit per test : 2 seconds memory limit per test : 256 megabytes input : standard input output ...
第八个知识点：交互式的定义如何帮助计算和IP类问题是什么
第八个知识点:交互式的定义如何帮助计算和IP类问题是什么这是系列中的第8篇,我们主要讨论计算中交互作用的用处和IP类问题是什么. 为了回答这些问题,我们首先给交互式证明系统一个简洁的介绍.众所周知, ...
【Warrior刷题笔记】力扣169. 多数元素【排序 || 哈希 || 随机算法 || 摩尔投票法】详细注释不断优化极致压榨
题目来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/majority-element/ 注意,该题在LC中被标注为easy,所以我们更多应该关 ...

关于python 爬虫遇到的反盗链

关于python 爬虫遇到的反盗链的更多相关文章

随机推荐

热门专题