爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）

#coding=utf-8

import requests

from bs4 import BeautifulSoup

import os

all_url = 'http://www.mzitu.com'

#http请求头

Hostreferer = {

    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',

    'Referer':'http://www.mzitu.com'

               }

Picreferer = {

    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',

    'Referer':'http://i.meizitu.net'

}

#此请求头破解盗链

start_html = requests.get(all_url,headers = Hostreferer)

#保存地址

path = '/home/lyt/mzitu/'

#找寻最大页数

soup = BeautifulSoup(start_html.text,"html.parser")

page = soup.find_all('a',class_='page-numbers')

max_page = page[-2].text

same_url = 'http://www.mzitu.com/page/'

for n in range(1,int(max_page)+1):

    ul = same_url+str(n)

    start_html = requests.get(ul, headers = Hostreferer)

    soup = BeautifulSoup(start_html.text,"html.parser")

    all_a = soup.find('div',class_='postlist').find_all('a',target='_blank')

    for a in all_a:

        title = a.get_text() #提取文本

        if(title != ''):

            print("准备扒取："+title)

            #win不能创建带？的目录

            if(os.path.exists(path+title.strip().replace('?',''))):

                    #print('目录已存在')

                    flag=1

            else:

                os.makedirs(path+title.strip().replace('?',''))

                flag=0

            os.chdir(path + title.strip().replace('?',''))

            href = a['href']

            html = requests.get(href,headers = Hostreferer)

            mess = BeautifulSoup(html.text,"html.parser")

            pic_max = mess.find_all('span')

            pic_max = pic_max[10].text #最大页数

            if(flag == 1 and len(os.listdir(path+title.strip().replace('?',''))) >= int(pic_max)):

                print('已经保存完毕，跳过')

                continue

            for num in range(1,int(pic_max)+1):

                pic = href+'/'+str(num)

                html = requests.get(pic,headers = Hostreferer)

                mess = BeautifulSoup(html.text,"html.parser")

                pic_url = mess.find('img',alt = title)

                print(pic_url['src'])

                # exit(0)

                html = requests.get(pic_url['src'],headers = Picreferer)

                file_name = pic_url['src'].split(r'/')[-1]

                f = open(file_name,'wb')

                f.write(html.content)

                f.close()

            print('完成')

    print('第',n,'页完成')

准备扒取：性感美女奶瓶土肥圆硕大美乳雪白细腻惹人冲动

已经保存完毕，跳过

准备扒取：甜美小蜜唐思琪巨乳颤颤姿势妩媚，看完心潮澎湃

已经保存完毕，跳过

准备扒取：美腿御姐萌琪琪曼妙身姿如狼似虎

已经保存完毕，跳过

准备扒取：欲女王雨纯情趣调教 她火热紧致让你性趣满满

准备扒取：尤蜜荟美女模特妲己Toxic天然美乳娇媚入骨

已经保存完毕，跳过

准备扒取：风骚欲女周于希奶大屁股翘 脱衣玩自摸豪放大胆

http://i.meizitu.net/2018/09/12a01.jpg

http://i.meizitu.net/2018/09/12a02.jpg

http://i.meizitu.net/2018/09/12a03.jpg

http://i.meizitu.net/2018/09/12a04.jpg

http://i.meizitu.net/2018/09/12a05.jpg

http://i.meizitu.net/2018/09/12a06.jpg

http://i.meizitu.net/2018/09/12a07.jpg

打印后的结果为：

爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）的更多相关文章

爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片
import requests import os from bs4 import BeautifulSoup import re # 初始地址 all_url = 'http://www.7160. ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
Requests 校花网图片爬取
纪念我们闹过的矛盾,只想平淡如水 import requestsimport reurl = 'http://www.xiaohuar.com/list-1-%s.html'for i in rang ...
基于Requests和BeautifulSoup实现“自动登录”
基于Requests和BeautifulSoup实现“自动登录”实例自动登录抽屉新热榜 #!/usr/bin/env python # -*- coding:utf-8 -*- import req ...
第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池
写在前面:本文相关方法为作者独创,仅供参考学习爬虫技术使用,请勿用作它途,禁止转载! 一. 引言在爬虫爬取网页时,有时候希望不同的时候能以不同公网地址去爬取相关的内容,去网上购买地址资源池是大部分人 ...
Python爬虫入门教程 2-100 妹子图网站爬取
妹子图网站爬取---前言从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...

随机推荐

c 用指针操作结构体数组
重点:指针自加,指向下一个结构体数组单元 #include <stdio.h> #include <stdlib.h> #include <string.h> #d ...
C#和Java访问修饰符的比较
访问修饰符对于C#:类的默认修饰符是 internal(外部类只能被public / internal 修饰)枚举的默认修饰符是 public 且此类型不允许其它访问修饰符接口的默认修饰符是 i ...
第114天：Ajax跨域请求解决方法（二）
一.什么是跨域我们先回顾一下域名地址的组成: http:// www . google : 8080 / script/jquery.js http:// (协议号) www (子 ...
FZU2121_神庙逃亡
水题.直接解二次方程判断点的高度即可. #include <iostream> #include <cstring> #include <cstdio> #incl ...
solr服务器的查询过程
SolrDispatchFilter的作用 This filter looks at the incoming URL maps them to handlers defined in solrcon ...
BZOJ4919 大根堆（动态规划+treap+启发式合并）
一个显然的dp是设f[i][j]为i子树内权值<=j时的答案,则f[i][j]=Σf[son][j],f[i][a[i]]++,f[i][a[i]+1~n]对其取max.这样是可以线段树合并的, ...
【刷题】BZOJ 4196 [Noi2015]软件包管理器
Description Linux用户和OSX用户一定对软件包管理器不会陌生.通过软件包管理器,你可以通过一行命令安装某一个软件包,然后软件包管理器会帮助你从软件源下载软件包,同时自动解决所有的依赖( ...
[Violet]蒲公英分块
发现写算法专题老是写不动,,,, 所以就先把我在luogu上的题解搬过来吧! 题目大意:查询区间众数,无修改,强制在线乍一看是一道恐怖的题,仔细一看发现并没有那么难: 大致思路是这样的,首先我们要充 ...
洛谷 P3312 [SDOI2014]数表解题报告
P3312 [SDOI2014]数表题目描述有一张\(N*M\)的数表,其第\(i\)行第\(j\)列(\(1\le i \le n\),\(1 \le j \le m\))的数值为能同时整除\( ...
SCOI2014极水的题解- -
话说SCOI都考了1个月了,终于拿出决心把题解补完了,但都说了是极水的题解,大家就看着玩吧- - DAY1 T1:目标是找最长不降子序列,先就有一个比较显然的结论,就是假如我们要拔高区间[L, R], ...

爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）

爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）的更多相关文章

随机推荐

热门专题