Python抓取妹子图，内含福利

目标抓取全站妹子封面图片全部爬下来以图片标题命名

分析网页数据结构

妹子图首页
接下来找张图片右击点击检查

想要数据
拿到图片链接直接用浏览器可以访问，但是程序下载有反爬虫，图片直接下载不了需要加请求头部信息

先上手代码试试！

import requests

from lxml import etree

# 设计模式 --》面向对象编程

class Spider(object):

    def __init__(self):

        # 反反爬虫措施，加请求头部信息

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",

            "Referer": "https://www.mzitu.com/xinggan/"

        }

    def start_request(self):

        # 1. 获取整体网页的数据 requests

        for i in range(1, 204):

            print("==========正在抓取%s页==========" % i)

            response = requests.get("https://www.mzitu.com/page/"+ str(i) + "/", headers=self.headers)

            html = etree.HTML(response.content.decode())

            self.xpath_data(html)

    def xpath_data(self, html):

        # 2. 抽取想要的数据 标题 图片 xpath

        src_list = html.xpath('//ul[@id="pins"]/li/a/img/@data-original')

        alt_list = html.xpath('//ul[@id="pins"]/li/a/img/@alt')

        for src, alt in zip(src_list, alt_list):

            file_name = alt + ".jpg"

            response = requests.get(src, headers=self.headers)

            print("正在抓取图片：" + file_name)

            # 3. 存储数据 jpg with open

            try:

                with open(file_name, "wb") as f:

                    f.write(response.content)

            except:

                print("==========文件名有误！==========")

spider = Spider()

spider.start_request()

哎！好像没问题！

运行中

运行结果

同学们，都把裤子给我穿上！好好学习！

教程已出，但是可能有很多网友不会使用

大家有任何问题可以扫描二维码关注公众号，添加我的微信

我会第一时间为大家解答

搜索公众号“一条正弦”或扫码关注公众号，第一时间获取更多优质资源

Python抓取妹子图，内含福利的更多相关文章

python 爬取妹子图
作为一个python还没入门的小白,搞懂这段代码实在是很不容易,还要去学html的知识(#黑脸) 因此我加上了注释,比较好读懂点 #coding=utf-8 import time import re ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...

随机推荐

201871010119-帖佼佼《面向对象程序设计（java）》第7周学习总结
博文正文开头格式:(2分) 项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.co ...
springboot整合axis1.4搭建服务端
前言最近公司要开发个接口,要用webservices接口实现,而且使用的是axis1.4框架,webservices和axis这两个东西我之前都没接触过,而且axis1.4这个框架06年就不再维护了 ...
五分钟学会conda常用命令
文章目录 conda常用命令 1. 获取版本号 2. 获取帮助 3. 环境管理 4. 分享环境 5. 包管理 conda常用命令 1. 获取版本号 conda --version 或 conda -V ...
《Javascript设计模式与开发实践》--读书笔记
第2章 this call apply bind()方法创建一个新的函数,在bind()被调用时,这个新函数的this被bind的第一个参数指定,其余的参数将作为新函数的参数供调用时使用. bind( ...
CQRS+ES项目解析-Diary.CQRS
在<当我们在讨论CQRS时,我们在讨论些神马>中,我们讨论了当使用CQRS的过程中,需要关心的一些问题.其中与CQRS关联最为紧密的模式莫过于Event Sourcing了,CQRS与ES ...
LeetCode刷题总结-字符串篇
本文梳理对LeetCode上有关字符串习题的知识点,并给出对应的刷题建议.本文建议刷题的总数为32题.具体知识点如下图: 1.回文问题题号:5. 最长回文子串,难度中等题号:214. 最短回文串, ...
64-Weave 如何与外网通信？
上一节我们学习了 Weave 网络内部如何通信,今天讨论 Weave 如何与外界通信. weave 是一个私有的 VxLAN 网络,默认与外部网络隔离.外部网络如何才能访问到 weave 中的容器呢? ...
H5和ionic RN和Weex 他们之间的比较
使用H5和ionic 进行移动APp开发首先要开发一个完整的网站,然后,在网站的基础上,使用 H5+huozhe ionic提供的打包技术,把网站打包成一个应用. 把网站打包成一个可以安装到手机上运 ...
Java并发的若干基本陷阱、原理及解决方案
勿止于结论:持续探索与求证. 概述为什么要使用并发 ? 有三点足够信服的理由: 性能提升.单核 CPU 的性能基本抵达瓶颈,充分挖掘多核 CPU 的能力,使得性能提升变成水平可扩展的. 事件本质.世 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...

Python抓取妹子图，内含福利

目标抓取全站妹子封面图片全部爬下来以图片标题命名

同学们，都把裤子给我穿上！好好学习！

Python抓取妹子图，内含福利的更多相关文章

随机推荐

热门专题