python3爬取全站美眉图片
爬取网站:https://www.169tp.com/xingganmeinv
该网站美眉图片有数百页,每页24张,共上万张图片,全部爬取下来
import urllib.request
import re
import os
from bs4 import BeautifulSoup page_flag = 0
base_url = "https://www.169tp.com/xingganmeinv/"
first_url ="https://www.169tp.com/xingganmeinv/list_1_1.html"
Imgnums = 0 def get_html(url):
response = urllib.request.urlopen(url)
html = response.read().decode('gb18030')
return html def get_Imgurl_list(html):
img_urllist = re.findall('src=["\']{1}(.+?\.jpg)["\']{1}', html)
return img_urllist def Download(img_urllist,page_flag,final_path,Imgnums):
num = 1
for imgurl in img_urllist:
imgname = "{}{}{}{}.jpg".format(final_path,page_flag,'_',num)
urllib.request.urlretrieve(imgurl,imgname)
print("已经爬取图片名:",imgname)
Imgnums += 1
num += 1 def makedir(path):
path = path.strip()
isExists = os.path.exists(path)
if not isExists:
print("创建了路径为 ",path," 的文件夹")
os.makedirs(path)
return True
else:
print("路径为 ",path," 的文件夹已经存在")
return False filepath = input("请输入保持图片的文件夹路径:")
print(filepath)
name = input("请输入保存图片的文件夹名:")
print(name)
finalpath = filepath + name
makedir(finalpath)
finalpath += '\\'
print(f"图片保存路径: {finalpath}") Download(get_Imgurl_list(first_url),page_flag,finalpath,Imgnums)
mysoup = BeautifulSoup(get_html(first_url),'html.parser')
next_page = mysoup.find('div',attrs = {'class':'page'}).find('li',text = '下一页').find('a')
while next_page:
new_url = base_url + next_page['href']
page_flag += 1
Download(get_Imgurl_list(get_html(new_url)),page_flag,finalpath,Imgnums)
mysoup = BeautifulSoup(get_html(new_url),'html.parser')
next_page = mysoup.find('div',attrs = {'class':'page'}).find('li',text = '下一页').find('a')
print(f"下载完成,共下载了 {Imgnums} 张图片!")
运行截图:

图片名命名规则:存储路径+页码+下划线+图片号+.jpg
图片文件夹截图:

python3爬取全站美眉图片的更多相关文章
- Python爬取全站妹子图片,差点硬盘走火了!
在这严寒的冬日,为了点燃我们的热情,今天小编可是给大家带来了偷偷收藏了很久的好东西.大家要注意点哈,我第一次使用的时候,大意导致差点坏了大事哈! 1.所需库安装 2.网站分析 首先打开妹子图的官网(m ...
- Python3爬取美女妹子图片转载
# -*- coding: utf-8 -*- """ Created on Sun Dec 30 15:38:25 2018 @author: 球球 "&qu ...
- python3爬取动态网站图片
思路: 1.图片放在<image>XXX</image>标签中 2.利用fiddler抓包获取存放图片信息的js文件url 3.利用requests库获取html内容,然后获取 ...
- python3爬取1024图片
这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作 ...
- python3爬取女神图片,破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
- 如何用python爬虫从爬取一章小说到爬取全站小说
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
- python 爬虫入门----案例爬取上海租房图片
前言 对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
- Python3 爬取微信好友基本信息,并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典 列表的第一项为本人的账号信息 ...
- 使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...
随机推荐
- JDBC连接数据库方法的封装,以及查询数据方法的封装
(在上一篇文章中,我们详细的介绍了连接数据库的方法,以及eclipse操作数据库信息的相关方法,在这里我们将主要讲封装.) 主要内容: 一般的连接数据库测试 把连接数据库的方法封装成一个类和测试 一个 ...
- 提升PPT制作效率和颜值
[大咖分享]By汤帅,PPT定制师 网站有时比素材库更有效 学会多模板整合利用 网站推荐:花瓣,officeplus,演界网,pptstore 演讲提纲 思维导图听课笔记
- 理解LSTM/RNN中的Attention机制
转自:http://www.jeyzhang.com/understand-attention-in-rnn.html,感谢分享! 导读 目前采用编码器-解码器 (Encode-Decode) 结构的 ...
- wpf 转型 android开发总结
今年马上就要过去了,这一年中我经历了从wpf转型到qt/qml,然后最近又要开始搞android,从我个人的经验来看不论是qml还是android从框架和设计上都跟wpf类似,并且移动端的设计因为很多 ...
- Windows IO 性能简单测试
转自:http://bbs.csdn.net/topics/360111289, 有改动. #include <windows.h> #include <stdio.h> #i ...
- 深入理解mysql的底层实现
MySQL 的常用引擎 1. InnoDB InnoDB 的存储文件有两个,后缀名分别是 .frm 和 .idb,其中 .frm 是表的定义文件,而 idb 是数据文件. InnoDB 中存在表锁和行 ...
- java面试题之----Java内部类
这是我学习Java内部类的笔记 1.为什么使用内部类? 使用内部类最吸引人的原因是:每个内部类都能独立地继承一个(接口的)实现,所以无论外围类是否已经继承了某个(接口的)实现, 对于内部类都没有影响 ...
- xtrabackup在线迁移mysql并搭建为主主同步
一.背景 工作中有需求数据库需要迁移,但是不能停服,不能锁库锁表影响业务的正常运行,所以使用XtraBackup 二.环境: 操作系统:CentOS Linux release 7.4.1708 (C ...
- 32位 64位 获得进程peb的方法
基于上一篇文章,大概了解了peb的获取方法,但是那个方法只能获得当前进程的PEB,不能获得其他的进程的PEB.根据那个思想,获得其他进程PEB则需要注入,得到进程信息,然后进程间通信,将信息返回来,经 ...
- Apache PredictionIO在Docker上的搭建及使用
1.Apache PredictionIO介绍 Apache PredictionIO 是一个孵化中的机器学习服务器,它可以为为开发人员和数据科学家创建任何机器学习任务的预测引擎.官方原文: Apac ...