爬取网站:https://www.169tp.com/xingganmeinv

该网站美眉图片有数百页,每页24张,共上万张图片,全部爬取下来

 import urllib.request
import re
import os
from bs4 import BeautifulSoup page_flag = 0
base_url = "https://www.169tp.com/xingganmeinv/"
first_url ="https://www.169tp.com/xingganmeinv/list_1_1.html"
Imgnums = 0 def get_html(url):
response = urllib.request.urlopen(url)
html = response.read().decode('gb18030')
return html def get_Imgurl_list(html):
img_urllist = re.findall('src=["\']{1}(.+?\.jpg)["\']{1}', html)
return img_urllist def Download(img_urllist,page_flag,final_path,Imgnums):
num = 1
for imgurl in img_urllist:
imgname = "{}{}{}{}.jpg".format(final_path,page_flag,'_',num)
urllib.request.urlretrieve(imgurl,imgname)
print("已经爬取图片名:",imgname)
Imgnums += 1
num += 1 def makedir(path):
path = path.strip()
isExists = os.path.exists(path)
if not isExists:
print("创建了路径为 ",path," 的文件夹")
os.makedirs(path)
return True
else:
print("路径为 ",path," 的文件夹已经存在")
return False filepath = input("请输入保持图片的文件夹路径:")
print(filepath)
name = input("请输入保存图片的文件夹名:")
print(name)
finalpath = filepath + name
makedir(finalpath)
finalpath += '\\'
print(f"图片保存路径: {finalpath}") Download(get_Imgurl_list(first_url),page_flag,finalpath,Imgnums)
mysoup = BeautifulSoup(get_html(first_url),'html.parser')
next_page = mysoup.find('div',attrs = {'class':'page'}).find('li',text = '下一页').find('a')
while next_page:
new_url = base_url + next_page['href']
page_flag += 1
Download(get_Imgurl_list(get_html(new_url)),page_flag,finalpath,Imgnums)
mysoup = BeautifulSoup(get_html(new_url),'html.parser')
next_page = mysoup.find('div',attrs = {'class':'page'}).find('li',text = '下一页').find('a')
print(f"下载完成,共下载了 {Imgnums} 张图片!")

运行截图:

图片名命名规则:存储路径+页码+下划线+图片号+.jpg

图片文件夹截图:

python3爬取全站美眉图片的更多相关文章

  1. Python爬取全站妹子图片,差点硬盘走火了!

    在这严寒的冬日,为了点燃我们的热情,今天小编可是给大家带来了偷偷收藏了很久的好东西.大家要注意点哈,我第一次使用的时候,大意导致差点坏了大事哈! 1.所需库安装 2.网站分析 首先打开妹子图的官网(m ...

  2. Python3爬取美女妹子图片转载

    # -*- coding: utf-8 -*- """ Created on Sun Dec 30 15:38:25 2018 @author: 球球 "&qu ...

  3. python3爬取动态网站图片

    思路: 1.图片放在<image>XXX</image>标签中 2.利用fiddler抓包获取存放图片信息的js文件url 3.利用requests库获取html内容,然后获取 ...

  4. python3爬取1024图片

    这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作 ...

  5. python3爬取女神图片,破解盗链问题

    title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...

  6. 如何用python爬虫从爬取一章小说到爬取全站小说

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...

  7. python 爬虫入门----案例爬取上海租房图片

    前言 对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...

  8. Python3 爬取微信好友基本信息,并进行数据清洗

    Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典 列表的第一项为本人的账号信息 ...

  9. 使用Python爬虫爬取网络美女图片

    代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...

随机推荐

  1. mui.ajax()和asp.net sql服务器数据交互【1】

    简单的ajax和asp.net的交互,例如遍历数据,前端显示复杂内容没有添加代码,可自行研究!非常适合懂那么一点点的我们! 实现步骤: 1.APP前端HTML: <div class=" ...

  2. 05_zookeeper的ACL

    [ACL概述] ACL:access control Lists,权限控制. * 针对节点可以设置相关的读写等权限,目的是为了保障数据安全性. * 权限permissions可以指定不同的权限范围以及 ...

  3. 数据结构----线性表顺序和链式结构的使用(c)

    PS:在学习数据结构之前,我相信很多博友也都学习过一些语言,比如说java,c语言,c++,web等,我们之前用的一些方法大都是封装好的,就java而言,里面使用了大量的封装好的方法,一些算法也大都写 ...

  4. 基于Vue的WebApp项目开发(二)

    利用webpack解析和打包.vue组件页面 相关知识: vue项目中的每个页面其实都是一个.vue的文件,这种文件,Vue称之为组件页面,必须借助于webpack的vue-loader才能运行,所以 ...

  5. RC4 加解密

    加密解密都是这一个接口 int Rc4EncryptFile(std::string in_file_path, std::string out_file_path, const char *rc4_ ...

  6. svn up (svn update) 状态缩写含义

    A:add,新增  C:conflict,冲突  D:delete,删除  M:modify,本地已经修改  G:modify and merGed,本地文件修改并且和服务器的进行合并  U:upda ...

  7. ASP.NET 4.5 MVC 4 无法在Windows2008的IIS7.0上解决方案

    环境 :    Windows2008 R2 Standard IIS 7.5     VS2012 SQL2005 最近才接触MVC4 自己做了个小实例 准备部署在 win2008 的IIS7.5 ...

  8. 一个典型的后台软件系统的设计复盘——(二)如何id一个事物

    这个话题,可以从类与对象说起. Dog dog1 = new Dog(); 哪个是类,哪个是对象?这个问题搞不清楚,后面就无从说起了.然后两个程序员之间沟通说,那个狗有问题.除非两人很默契,不然另一人 ...

  9. Oracle三种链接方式的区别

    1 nested loops join--我们用设置statistics_level=all的方式来观察如下表连接语句的执行计划: --T2表被访问100次(驱动表访问1次,被驱动表访问100次)-- ...

  10. 如果使用没有提供选项值的 SqlDependency,必须先调用 SqlDependency.Start(),然后才能执行添加到 SqlDependency 实例中的命令

    如标题错误,解决办法及出现错误情况,见图片 出现如图错误