'''
  1. 爬取以下站点中各个明星图片,分别单独建文件夹存放。
   起始URL地址:http://www.mm131.com/mingxing
  '''
  import os
  import logging
  import requests
  from bs4 import BeautifulSoup   logging.basicConfig(level=logging.INFO)   def store_girl_img(girl_url, store_girl_dir):
  # 把girl_url的单个小姐姐放入store_girl_dir文件夹
  girl_html = requests.get(girl_url) #访问girl_url网址
  girl_html.encoding = "gbk" #修改编码,不然会是乱码
  girl_text = girl_html.text #获取girl_html的网页内容。girl_html.content返回的是bytes数据   girl_src = BeautifulSoup(girl_text, 'lxml').find("div",class_='content-pic').find('img')['src']
  #BeautifulSoup用lxml库解析girl_html的网页内容,并找到所有class_='content-pic'的div标签
  #再找到img标签下的src属性,得到单张照片的链接
  print(girl_src)   # 此处加headers是为防反爬虫,如果不加会响应403,没有权限
  headers = {
  'Referer': girl_url,
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
  }
  file_name = girl_src.split('/')[-1]
  #将http://img1.mm131.me/pic/2016/1.jpg切片成["http://img1.mm131.me/pic/2016","1.jpg"],[-1]就是去第二个1.jpg
  file_name = os.path.join(store_girl_dir, file_name) #在store_girl_dir目录下创建图片名字file_name,如1.jpg
  with open(file_name, 'wb') as f: #二进制模式打开file_name
  girl_content = requests.get(girl_src, headers=headers).content # .content获取图片的二进制数据
  f.write(girl_content) #写入到file_name   def store_page_grils(href, store_girl_dir):
  # 把href这个链接下的小姐姐们(多个)放入文件夹store_girl_dir
  girl_text = requests.get(href).text #访问某个美女的图片页面
  soup = BeautifulSoup(girl_text, 'lxml') #获得BeautifulSoup对象
  # 获取美女图片的张数
  max_page_num = soup.find('div', class_='content-page').find_all('a')[-2].get_text()
  #找到class_='content-page'的div标签---->找出该div下所有的a标签,得到一个a标签列表
  #[-2]取出倒数第二个按标签,get_text()是获取文本内容
  max_page_num = int(max_page_num) #文本内容转化为整数   girl_url_list = [href] #定义一个列表,存放一个美女所有图片的链接,页面特殊,href表示第一张
  #for循环获取第二张到最后一张的链接
  for page_num in range(2, max_page_num + 1):   girl_url = str(href).replace(".html",f"_{page_num}.html") # 将.html替换_{page_num}.html
  # print(girl_url)
  girl_url_list.append(girl_url) #将第二张到最后一张的链接追加到girl_url_list
  # print(girl_url_list)
  for girl_url in girl_url_list:
  store_girl_img(girl_url, store_girl_dir) #循环调用store_girl_img函数   def main():
  url = 'http://www.mm131.com/mingxing'
  store_dir = 'meizitu' #主目录
  os.makedirs(store_dir, exist_ok=True) #创建主目录,若主目录存在不报错
  home_html = requests.get(url) #访问http://www.mm131.com/mingxing
  home_html.encoding = "gbk"
  home_text = home_html.text #获取网页内容
  # 得到小姐姐们的链接标签
  ahref_list = BeautifulSoup(home_text, 'lxml').find("div",class_="main").find_all('a')[2:22]
  #找到所有a标签,得到一个a标签列表,[2:22]表示:取a标签列表的第2到21个,因为前两个是不需要的
  # print(ahref_list)
  for ahref in ahref_list: #遍历这20个a标签
  # ahref 是bs4.element.Tag实例
  girlname = ahref.get_text() # 获取a标签的文本内容,作为存放小姐姐图片的子目录
  href = ahref['href']# 取出a标签的href属性,得到一个小姐姐图片的链接
  store_girl_dir = os.path.join(store_dir, girlname) # 拼接得到放该小姐的房间号,即存放美女的文件夹
  os.makedirs(store_girl_dir, exist_ok=True)
  logging.info(f'开始下载{girlname}的图片')
  store_page_grils(href, store_girl_dir)   if __name__ == '__main__':
  main()

爬虫mm131明星照片的更多相关文章

  1. Python网络爬虫实战(三)照片定位与B站弹幕

    之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了. 这篇实战包含两个内容. * 利用爬虫调用Api来解析照片的拍摄位置 * 利用爬虫爬取Bilibili视频中的 ...

  2. 牛逼了,利用Python实现“天眼系统”,只要照片就能了解个人信息

  3. 让你从零开始学会写爬虫的5个教程(Python)

    写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚本是很简单的,但是对于新手来说却并不是那么容易. ...

  4. [转]让你从零开始学会写爬虫的5个教程(Python)

    让你从零开始学会写爬虫的5个教程(Python)   写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个 ...

  5. 用python批量下载图片

    一 写爬虫注意事项 网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...

  6. 阿里巴巴直播内容风险防控中的AI力量

    直播作为近来新兴的互动形态和今年阿里巴巴双十一的一大亮点,其内容风险监控是一个全新的课题,技术的挑战非常大,管控难点主要包括业界缺乏成熟方案和标准.主播行为.直播内容不可控.峰值期间数千路高并发处理. ...

  7. 结合NGUI做的手机拍照(可自定义相框)

    原地址:http://www.unity蛮牛.com/thread-18220-1-1.html 在次此之前我们先要了解一下下面的我要讲的几个内容: 一.为什么要用NGUI,因为NGUI的可以做屏幕自 ...

  8. 设计模式之第18章-观察者模式(Java实现)

    设计模式之第18章-观察者模式(Java实现) 话说曾小贤,也就是陈赫这些天有些火,那么这些明星最怕的,同样最喜欢的是什么呢?没错,就是狗仔队.英文的名字比较有意思,是paparazzo,这一说法据说 ...

  9. AI新生代“教父”崛起,或成就迈向具有类人意识机器的一大步

    <麻省理工科技评论>公布了 2018 年全球十大突破性技术,“对抗性神经网络”即“生成对抗网络”作为突破性人工智能技术赫然上榜.这家全球最顶级科技杂志编辑部对这项革命性技术给出的评价是:它 ...

随机推荐

  1. rtmp推送aac没有声音的问题记录

      症状是这样的:用librtmp推流aac后,用vlc能收到推流的声音,但是用flash却播放不了推流的声音.   查了几天,用工具抓取推流的数据,发现rtmp数据包中的头部信息有一个Chunk S ...

  2. 深入理解 Java 虚拟机之学习笔记(2)

    本节介绍 Java堆的OutOfMemoryError测试 Eclipse Memory Analyzer分析内存溢出 虚拟机栈和本地方法栈StackOverflowError测试 方法区和运行时常量 ...

  3. Pro ASP.NET MVC –第二章 第一个MVC程序

    学习一个软件开发框架的最有效的方式就是了解并使用它.在本章,你将会创建一个简单基于ASP.NET MVC Framework的数据-实体应用程序.我们会该程序划分成若干小块,每次介绍一个部分,以便你能 ...

  4. Java 文件读写操作

    1[1]按字节读写,一次只读取一个字节,效率比较低 package bk1; import java.io.File; import java.io.FileInputStream; import j ...

  5. Lucene.net(4.8.0) 学习问题记录一:分词器Analyzer的构造和内部成员ReuseStategy

    前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...

  6. MySQL 安装 用户管理 常用命令

    MySQL目录 数据库概览   数据库介绍 Why Choose MySQL MySQL的前世今生 MySQL的安装   Windows安装MySQL5.721 installer版 Windows安 ...

  7. 制作tomcat重启.bat文件

    环境是在windows下,linux不知道,没有尝试过,有机会去试试哈哈 首先创建一个restart.bat文件 创建在哪里看你开心咯 然后用记事本打开 输入以下源代码: @echo off cd / ...

  8. Runloop, 多线程

    Runloop是个死循环,为甚么? 1. 保证程序不退出 2.监听用户的事件, 触摸,时钟,网络事件 UITrackingMode,只能触摸事件,没有触摸事件了,直接就停止了 Runloop: sou ...

  9. <大话设计模式>工厂模式,策略模式

    第一章:工厂模式: 通过封装,继承,多态解耦合 业务逻辑和界面逻辑分开 用单独的类创造实例,工厂:创造实例 工厂模式还可以用反射来实现,nsstringFromClass UML类图 聚合表示一众弱的 ...

  10. 如何通过钉钉扫码登录odoo

    更加方便快捷的登录odoo,实现免密码登录,有需要此模块朋友加我微信18310744639 1.首先你需要一个钉钉管理员权限,以便获取appid, appsecret,corpid, corpsecr ...