scrapy版本爬取妹子图

不封号，不限速，无限爬取

关键所在下载图片

from scrapy.pipelines.images import ImagesPipeline

原来的类继承object,改为继承ImagesPipeline

其中 函数名固定

def get_media_requests  # 下载图片

def item_completed  	#  是否下载成功

def file_path  			# 图片存放

前期准备

代理ip池

import pymysql

import random

def get_ip():

    conn = pymysql.connect(

        host='127.0.0.1',

        port=3306,

        user='root',

        password='123',

        database='pachong',

        charset='utf8',

        autocommit=True

    )

    cursor = conn.cursor(pymysql.cursors.DictCursor)

    sql = 'select ip from ip_list'

    cursor.execute(sql)

    ip_list = cursor.fetchall()

    ip = random.choice(ip_list)['ip']

    conn.close()

    return ip

UserAgent池

def get_UserAgent():

    from fake_useragent import UserAgent

    ua = UserAgent(verify_ssl=False)

    UserAgent = ua.random  # 随机获取一个UserAgent

    return UserAgent

middlewares中间件(破解反爬)

from mzitu.pool.ip import get_ip

from mzitu.pool.useragent import get_UserAgent

def process_request(self, request, spider):

    request.meta['proxies'] = get_ip()

    request.headers['User-Agent'] = get_UserAgent()

    request.headers['Referer'] = 'https://www.mzitu.com/'

    return None

settings配置

LOG_LEVEL='ERROR'

IMAGES_STORE = 'E:\python13\pachong\images'  # 下载目录配置，没有自动创建

RETRY_ENABLED = False  # 禁止重试

DOWNLOAD_TIMEOUT = 10  # 超时时间放弃

# 打开下载

ITEM_PIPELINES = {

   'mzitu.pipelines.MzituPipeline': 300,

}

# 打开中间件

DOWNLOADER_MIDDLEWARES = {

   'mzitu.middlewares.MzituDownloaderMiddleware': 543,

}

正题

爬虫

# -*- coding: utf-8 -*-

import scrapy

from bs4 import BeautifulSoup

from scrapy.http import Request

from mzitu.items import MzituItem

class AmzituSpider(scrapy.Spider):

    name = 'Amzitu'

    start_urls = ['https://www.mzitu.com/197251']

    def parse(self, response):

        soup = BeautifulSoup(response.text, 'lxml')

        img_url = soup.select('.main-image img')[0].attrs['src']

        next = soup.select('.pagenavi a:nth-last-child(1)')[0].attrs['href']

        img_name = img_url.rsplit('/',1)[-1]

        item = MzituItem()

        item['img_url'] = img_url

        item['img_name'] = img_name

        yield item

        yield Request(next)

保存下载图片

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

from scrapy.http import Request

class MzituPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        print(item['img_url'])

        # 下载图片，如果传过来的是集合需要循环下载

        # meta里面的数据是从spider获取，然后通过meta传递给下面方法：file_path

        yield Request(url=item['img_url'], meta={'name': item['img_name']})

    def item_completed(self, results, item, info):

        # 是一个元组，第一个元素是布尔值表示是否成功

        if not results[0][0]:

            raise DropItem('下载失败')

        return item

    # 重命名图片名，若不重写这函数，图片名为哈希，就是一串乱七八糟的名字

    def file_path(self, request, response=None, info=None):

        img_name = request.meta['name']

        return img_name

scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站的更多相关文章

Scrapy爬取美女图片第三集代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
Scrapy爬取美女图片第三集代理ip(下)
这是我的公众号获取原创保护的首篇文章,原创的肯定将支持我继续前行.现在写这篇文章的时间是晚上11:30,写完就回寝室休息了,希望更多的朋友与我一起同行(当然需要一个善良的妹子的救济).(我的新书< ...
采集15个代理IP网站，打造免费代理IP池
采集的站点: 免费代理IP http://ip.yqie.com/ipproxy.htm66免费代理网 http://www.66ip.cn/89免费代理 http://www.89ip.cn/无忧代 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Scrapy爬取女神照片
使用Scrapy趴一趴美女图 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自 ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
使用scrapy爬取海外网学习频道
一:创建项目文件 1:首先在终端使用命令scrapy startproject huaerjieribao 创建项目 2:创建spider 首先cd进去刚刚创建的项目文件overseas 然后执行ge ...
爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)
Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPyth ...

随机推荐

创建 VuePress + GithubPages + TravisCI 在线文档
目录最终效果思路总体过程用到的东西相关创建Github仓库创建Github仓库 SSH密钥链接Github 生成SSH密钥 Github添加SSH密钥测试SSH密钥配置VuePre ...
Natas0 Writeup（前端源码、敏感信息）
Natas0: 提示密码就在本页,右键查看源码,注释中发现flag. flag:gtVrDuiDfck831PqWsLEZy5gyDz1clto 总结:客户端代码注释中切勿保存敏感信息.
JavaScript零宽字符
什么是零宽字符一种不可打印的Unicode字符, 在浏览器等环境不可见, 但是真是存在, 获取字符串长度时也会占位置, 表示某一种控制功能的字符. 常见的零宽字符有哪些零宽空格(zero-widt ...
【转】使用ssh-copy-id 快速的配置免密登录
1.在需要免密登录其他机器的主机上生成公钥,私钥等. ssh-keygen -t rsa 回车回车回车哪个用户登录就在哪个用户目录的.ssh目录下生成. 2.将以下命令做成脚本,因为环境不能下载, ...
vue 组件通讯方式到底有多少种 ?
前置做大小 vue 项目都离不开组件通讯, 自己也收藏了很多关于 vue 组件通讯的文章. 今天自己全部试了试, 并查了文档, 在这里总结一下并全部列出, 都是简单的例子. 如有错误欢迎指正. 温馨 ...
hdoj 1829 A bug's life 种类并查集
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1829 并查集的一个应用,就是检测是否存在矛盾,就是两个不该相交的集合有了交集.本题就是这样,一种虫子有 ...
洛谷1258 Tire字典树
直接上代码: #include<bits/stdc++.h> using namespace std; typedef unsigned int ui; typedef long long ...
新版Shader组件更新啦，支持 Creator2.3.x 外，还有新特性...
B站视频 https://www.bilibili.com/video/BV1j7411X7mG/ 新版 ShaderHelper 组件更新啦,这个版本主要更新了三个功能: Cocos Creator ...
[源码分析] 从FlatMap用法到Flink的内部实现
[源码分析] 从FlatMap用法到Flink的内部实现 0x00 摘要本文将从FlatMap概念和如何使用开始入手,深入到Flink是如何实现FlatMap.希望能让大家对这个概念有更深入的理解. ...
IO多路复用(IO Multiplexing)
什么是IO多路复用为什么要有IO多路复用作者总结遵循学习新知识的三部曲:是什么?为什么?怎么用? 作者前言:IO多路复用本质上是网络通信过程中的一个技术名词. 什么是IO多路复用一个用机场管理 ...

scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站

scrapy版本爬取妹子图

关键所在下载图片

前期准备

代理ip池

UserAgent池

middlewares中间件(破解反爬)

settings配置

正题

爬虫

保存下载图片

scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站的更多相关文章

随机推荐

热门专题