Python3x 爬取妹子图

思路：1、get_totalpages(url) 通过【性。感。美。女。图】获得该版块的总页数【首页1234567891011下一页末页共 21页1034条】

2、get_sercoverurl(pageurl) 版块每一页有50个系列的封面，获得每个封面的地址。

3、进入该封面（即系列），获得该系列图片的总张数【[url=]共79页:[/url]上一页12345678910111213下一页】

4、get_serurl(sercoverurl) 获得每一个图片所在页面的地址

5、urllib.request.urlretrieve(picurl, filename) 获得图片的下载地址。

根据网站结构，总结了版块 -< 系列 -- 系列封面 -< 图片页面 -- 图片下载地址的编排规律，

其中" -< " 表示 1对多，即1个版块有多个系列, 1个系列封面有多个图片；

" -- " 表示 1对1，如1个系列只有1个封面， 1个图片页面只有1个图片下载地址

搞清楚这些就明白哪些地方需要循环了。

废话太多，直接上代码吧！

import urllib.request

import os

import re

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

def get_totalpages(url):                          #通过版块地址获得该版块所有页数（每页有50个系列），返回值为数字

    html = url_open(url).decode('gbk')

    reg = r'共 <strong>(.*?)</strong>页'

    totalpages = re.findall(reg,html)[0]

    return int(totalpages)

def get_sercoverurl(pageurl):                    #通过页面地址获得该页面下所有系列的封面地址，返回值为列表

    html = url_open(pageurl).decode('gbk')

    reg = r'<p><a href="(.*?)"'

    sercoverurl = re.findall(reg, html)

    return sercoverurl                          #各个系列的封面 列表

def get_serurl(sercoverurl):                  #通过封面获得该系列的所有图片所在的页面地址 (每个页面有一张图片，其地址待下一步获取)

    html = url_open(sercoverurl).decode('gbk')   #

    reg1 = r'<li><a>共(.*?)页'

    totalsheets = int(re.findall(reg1, html)[0])  # 获得该系列图片总张数

    serurls = []

    serurls.append(sercoverurl)

    for eachsheet in range(2,totalsheets+1):

        serurl = sercoverurl[:-5] + '_' + str(eachsheet) + sercoverurl[-5:]

        serurls.append(serurl)

    return serurls

def get_picurl(serurl):

    html = url_open(serurl).decode('gbk')

    reg = r"<img src='(.*?)'"

    picurl = re.findall(reg,html)[0]

    return picurl     #只有一个地址，即封面地址

def download_cl(folder = '爬虫youmzi'):               #主程序

    try:

        os.mkdir(folder)

        os.chdir(folder)

    except:

        os.chdir(folder)

    url = 'http://www.youmzi.com/meinv.html'

    totalpages = get_totalpages(url)

    print(totalpages)

    for eachpage in range(1,totalpages+1):

        pageurl = url[:-5] + '_'+ str(eachpage) + url[-5:]

        print(pageurl)

        sercoverurl = get_sercoverurl(pageurl)       #获得系列的封面地址 列表

        print(sercoverurl)

        for eachsercover in sercoverurl:

            serurl = get_serurl(eachsercover)      #返回系列的所有地址 列表

            for oneser in serurl:

                picurl = get_picurl(oneser)

                print(picurl)

                filename = picurl.split('/')[-1]

                urllib.request.urlretrieve(picurl, filename)

if __name__ == '__main__':

    download_cl()

Python3x 爬取妹子图的更多相关文章

Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
scrapy 也能爬取妹子图？
目录前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图瞎比比前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需 ...
使用request+Beautiful爬取妹子图
一.request安装 pip install requests request使用示例 import requests response = requests.get('https://www.mz ...
requests+正则表达式爬取妹子图
做了一个爬取妹子图某张索引页面的爬虫,主要用request和正则表达式. 感谢崔庆才大神的爬虫教学视频和 gitbook: B站:https://www.bilibili.com/video/a ...
爬取妹子图(requests + BeautifulSoup)
刚刚入门爬虫,今天先对于单个图集进行爬取,过几天再进行翻页爬取. 使用requests库和BeautifulSoup库目标网站:妹子图今天是对于单个图集的爬取,就选择一个进行爬取,我选择的链接为: ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
利用 PhpQuery 随机爬取妹子图
前言运行下面的代码会随机得到妹子图的一张图片,代码中的phpQuery可以在这里下载:phpQuery-0.9.5.386.zip <?php require 'phpQuery.php'; ...
python 爬取妹子图
作为一个python还没入门的小白,搞懂这段代码实在是很不容易,还要去学html的知识(#黑脸) 因此我加上了注释,比较好读懂点 #coding=utf-8 import time import re ...

随机推荐

spring各种邮件发送
参考地址一参考地址二参考地址三参考地址四 Spring邮件抽象层的主要包为org.springframework.mail.它包括了发送电子邮件的主要接口MailSender,和值对象Simpl ...
SpringMVC与SiteMesh
SpringMVC与SiteMesh2.4无缝整合并借助JSR303规范实现表单验证 SiteMesh3.0的下载,简介与使用总结: springmvc结合sitemesh总共分三步: 1.添加si ...
MySQL —— 如何快速对比数据？
我们在MySql中想要对比下两个不同的实例上的数据并且找出差异,除了主键之外我们还要对比每一个字段,应该怎么做呢? 方案一:写一个程序将两个实例里面的每一行数据都分别取出来对比,但是耗时我们无法估计, ...
kernel4.1 ioctl调用
在4.1内核中开发时遇到个奇怪的问题: 用户空间的ioctl无法调用到内核空间的unlock_ioctl 排查源码发现 546 int do_vfs_ioctl(struct file *filp, ...
js 字符串拼接 html 累加 html 叠加
正常来说已经使用es6 的模板了如`` //页面层 layer.open({ type: 1, content:`<div class="child_card"> & ...
freeswitch 把SIP注册信息数据库从SQLITE 改为MYSQL的方法
实际线上应用中,在线注册人数超过4000 ,SQLITE就吃不消了,容易造成锁表,考虑转入MYSQL,查了下官网超过转入了MYSQL. https://wiki.freeswitch.org/wik ...
《转》ceilometer的数据採集机制入门
问题导读 1.ceilometer负责什么事情? 2.ceilometer 有哪些概念? 3.ceilometer 怎样採集hardware? 附上openstack 官网API http://d ...
map area 标签的使用
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
Tablespace for table '`pomelo`.`bag`' exists. Please DISCARD the tablespace before IMPORT.
//遇到的问题是,删除数据库之后,重新创建数据库,在创建数据库表的时候,明明没有该表,却提示存在这个表.这是数据库缓存造成的 //解决方法 FLUSH TABLES; /* 安装MySql数据库(略) ...
Unix系统编程（）发送信号kill
与shell的kill命令类似,一个进程能够使用kill系统调用向另一进程发送信号. 之所以选择kill作为术语,因为早期UNIX实现中大多数信号的默认行为是终止进程. #include <si ...

Python3x 爬取妹子图

Python3x 爬取妹子图的更多相关文章

随机推荐

热门专题