Python爬取mn52网站美女图片以及图片防盗链的解决方法

防盗链原理

http标准协议中有专门的字段记录referer

一来可以追溯上一个入站地址是什么

二来对于资源文件，可以跟踪到包含显示他的网页地址是什么

因此所有防盗链方法都是基于这个Referer字段

so:很多网站使用防盗链的方法来设置反爬虫机制，设置这种机制后通过图片路由直接访问会返回403错误，

其实解决办法很简单，加入header，然后把Referer写入即可！

headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

        'Referer': url

    }

本文爬取https://www.mn52.com/网站上面的清纯美女图片，代码如下；

# 需要的库

import requests

import re

import os

from multiprocessing import Pool

# 主函数

def get_img(url):

    # 设置图片存储路径

    path = './mn52/'

    if not os.path.exists(path):

        os.mkdir(path)

    # 请求头，因为图片路由有防盗链设置所以在headers中添加'Referer': url

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

        'Referer': url

    }

    try:

        # 请求主页面路由

        response = requests.get(url=url,headers=headers)

        # print(response.text)

        # 正则提取并遍历获取分页面

        res_paging = re.findall('<div class="picbox">.*?<a href="(.*?)"',response.text,re.S)

        for i in res_paging:

            # 拼接分页面路由

            url_infos = 'https://www.mn52.com' + i

            # 请求分页面路由

            res_details = requests.get(url=url_infos,headers=headers)

            # 遍历获取图片路由

            res_detail = re.findall('<div class="img-wrap">.*?<img .*?rel="(.*?)"/>',res_details.text,re.S)

            for i in res_detail:

                # 拼接图片路由

                img_urls = 'https:'+i

                # 给图片命名

                filename = i.split('/')[-1]

                # 判断图片是否已下载

                if os.path.exists(path+str(filename)):

                    print('图片已存在')

                else:

                    # 请求图片连接

                    res = requests.get(url=img_urls,headers=headers)

                    # 保存图片

                    with open(path+str(filename),'wb') as f:

                        f.write(res.content)

                        # 打印下载信息

                        print('正在下载：'+img_urls)

    except Exception as e:

        print(e)

# 程序入口

if __name__ == '__main__':

    # 构造完整路由

    urls = ['https://www.mn52.com/meihuoxiezhen/list_2_{}.html'.format(i) for i in range(1,94)]

    # 开启多进程

    pool = Pool()

    # 启动程序

    pool.map(get_img,urls)

    print('抓取完成')

图片比较多，需要一些时间下载，控制台显示的下载过程

打开文件查看图片是否下载成功

done

Python爬取mn52网站美女图片以及图片防盗链的解决方法的更多相关文章

python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
用Python爬取斗鱼网站的一个小案例
思路解析: 1.我们需要明确爬取数据的目的:为了按热度查看主播的在线观看人数 2.浏览网页源代码,查看我们需要的数据的定位标签 3.在代码中发送一个http请求,获取到网页返回的html(需要注意的是 ...
Python爬取某网站文档数据完整教程（附源码）
基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs) Python 3.6 Pycharm 相关模块的使用 (https://jq.qq.com/?_ ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
利用Python爬取电影网站
#!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...
python爬取电影网站信息
一.爬取前提1)本地安装了mysql数据库 5.6版本2)安装了Python 2.7 二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的html内 ...
python爬取招聘网站数据
# -*- coding: utf-8 -*- # 爬虫分析 from bs4 import BeautifulSoup from lxml import etree from selenium im ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...

随机推荐

做JAVA的需要了解的框架
spring netty Elasticsearch Eureka Hystrix 接口的依赖性管理 Zuul Config Bus ActiveMQ redis zookper quartz had ...
K3Wise插件开发实战教程（全套）持续更新中。。。
这是林枫山自己编写制作的全套K3wise插件教程,欢迎下载学习. 下载目录链接如下(如果链接下载不了,请加QQ:714259796获取教程): 进度01-K3Wise数据表详解下载学习文档 ...
java 堆调优
一.查看kafka集群的broker的堆内存使用情况 1>.使用jstat查看gc的信息([root@kafka116 ~]# jstat -gc 12698 1s 30) 参数说明:S0C:第 ...
java字符串截取
import org.apache.commons.lang.StringUtils; public class substr{ public static void main(String[] ar ...
centos7双网卡绑定
# 概念服务器存在多块网卡时,可以通过bond来实现多块网卡并在一起使用: # 模式 mode 0:load balancing (round-robin) Support:需要Switch支持 & ...
golang（一）
开篇先来个Go语言的吉祥物-金花鼠Gordon. golang是谷歌2009年发布的开源编程语言,截止目前go的release版本已经到了1.10.go语言的开发人员都是计算机界大神一般的存在: Th ...
python自动化测试之appium环境安装
1.安装client pip install Appium-Python-Clinet 若有两个版本的python则使用(python3 -m pip install Appium-Python-C ...
Spark之RDD弹性特性
RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面. 1．自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能 ...
SpringBootSecurity学习（07）网页版登录整合JDBC
数据库中定义用户前面我们定义用户是在配置文件和代码中定义死的默认用户,一般在开发中是不会这样做的,我们的用户都是来自我们的用户表,存储在数据库中.操作数据库的技术有很多,spring securit ...
C#类类型
一.类和对象假设我开了一家烤鱼店,每当客人来点餐时,我就会用笔和纸记录这笔订单,并计算出每单的价格.以下是记录的订单: 单号:00001种类:清江鱼口味:香辣配菜:豆腐价格:140元-------- ...

Python爬取mn52网站美女图片以及图片防盗链的解决方法

防盗链原理

Python爬取mn52网站美女图片以及图片防盗链的解决方法的更多相关文章

随机推荐

热门专题