Python脚本爬取网站美女照片

上次无意之中看到一个网站，里面全是美女的照片，我就心想，哪天有时间了得把这网站的所有美女照片都得爬下来。今天有时间，写了点代码，爬去了网站的所有照片。附上战果！图片实在是太多了，爬半个多小时

先附上所有的源代码：

# -*- coding: utf-8 -*-

"""

Created on Fri Nov  9 17:07:44 2018

@author: 小谢

"""

import requests

from bs4 import BeautifulSoup

import os

import random

import csv

import time

urls=[]

urlls=[]

datas=[]

i=0

def Download(name,url,dirname):

    dir=dirname+"//"

    path=os.path.join(dir,name)

    response=requests.get(url)

    try:

        with open(path,"wb") as f:

            f.write(response.content)

            f.close()

            global i

            i=i+1

    except Exception as e:

        print(e)

#获取每一个分类的URL和名字

def Geturl():

    resp=requests.get("http://www.27270.com/ent/meinvtupian/")

    resp.encoding="gbk"  #设置网页编码

    html=resp.text

    soup=BeautifulSoup(html,"html.parser")

    divSoup1=soup.find("div",attrs={"id":"NewTagListBox"})

    aas=divSoup1.find_all("a")

    for a in aas:

        tup=(a['href'],a.string)

        urls.append(tup)  #将主页面的各个分栏的链接和名字加入urls元组中

def GetImages(url,dirname):

    print("*"*50)

    if os.path.exists(dirname):

        pass

    else:

        os.mkdir(dirname)   #创建目录

    try:

        resp=requests.get(url)

        resp.encoding="gbk"  #设置网页编码

        html=resp.text

        soup=BeautifulSoup(html,"html.parser")

        divSoup=soup.find("ul",attrs={'class':'w110 oh Tag_list'})

        lis=divSoup.find_all("li")

        fp=open("meinv.csv","a",newline="")

        csv_writer=csv.writer(fp)

        for li in lis:

            img=li.find("img")

            alt=img['alt']

            name=alt+".jpg"      #图片的名字

            src=img['src']       #图片的下载地址

            tup=(name,src,dirname)

            Download(name,src,dirname)

            csv_writer.writerow(tup)

            print(tup)

            datas.append(tup)            #Download(data[0],data[1],dirname)

        fp.close()

    except Exception as e:

        print(e)

def GetUrls():

    Geturl()  #获取所有分栏的页面

    for url in urls:

        ur=url[0][:-5]    #将每个分栏的url链接去除最后的 .html

        for i in range(11):

            i+=1

            if i==1:

                uuu=ur+".html"

                a=(uuu,url[1])

                urlls.append(a)

            else:

                uuu=ur+"_"+str(i)+".html"

                a=(uuu,url[1])

                urlls.append(a)

def main():

    GetUrls()  #获取所有页面的url

    for ur in urlls:

        print(ur[0],ur[1])

        GetImages(ur[0],ur[1])

        time.sleep(3)  #没抓取一个页面延时3秒

if __name__=='__main__':

    start=time.time()

    main()

    end=time.time()

    print("一共爬去了%s张照片，一共花费了%s的时间"%(str(i),(end-start)))

网站链接：http://www.27270.com/ent/meinvtupian/

爬取网站的第一步，就是先分析网站的结构。我们可以看到，上面这里有分类

我们右键检查元素，发现这些分类都有规律

我们写一个函数获得每个分类的链接和名字，将链接和名字以元组的形式存储在我们的全局变量 urls中

def Geturl():

    resp=requests.get("http://www.27270.com/ent/meinvtupian/")

    resp.encoding="gbk"  #设置网页编码

    html=resp.text

    soup=BeautifulSoup(html,"html.parser")

    divSoup1=soup.find("div",attrs={"id":"NewTagListBox"})

    aas=divSoup1.find_all("a")

    for a in aas:

        tup=(a['href'],a.string)

        urls.append(tup)  #将主页面的各个分栏的链接和名字加入urls元组中

然后我们开始分析每一个分类的规律了，每一个分类都有很多栏，而每一个栏的url都有规律。

http://www.27270.com/tag/875.html

http://www.27270.com/tag/875_2.html

http://www.27270.com/tag/875_3.html

......

所有我们得构造每一个分类的链接，因为每一个分类的栏目数量不同，所以我们选了最多的14。将每一分类的每一页的每张图片的url加入urlls列表中

def GetUrls():

    Geturl()  #获取所有分栏的页面

    for url in urls:

        ur=url[0][:-5]    #将每个分栏的url链接去除最后的 .html

        for i in range(14):

            i+=1

            if i==1:

                uuu=ur+".html"

                a=(uuu,url[1])

                urlls.append(a)

            else:

                uuu=ur+"_"+str(i)+".html"

                a=(uuu,url[1])

                urlls.append(a)

接下来的函数是获取图片的URL和名字，

def GetImages(url,dirname):

    print("*"*50)

    if os.path.exists(dirname):

        pass

    else:

        os.mkdir(dirname)   #创建目录

    try:

        resp=requests.get(url)

        resp.encoding="gbk"  #设置网页编码

        html=resp.text

        soup=BeautifulSoup(html,"html.parser")

        divSoup=soup.find("ul",attrs={'class':'w110 oh Tag_list'})

        lis=divSoup.find_all("li")

        fp=open("meinv.csv","a",newline="")

        csv_writer=csv.writer(fp)

        for li in lis:

            img=li.find("img")

            alt=img['alt']

            name=alt+".jpg"      #图片的名字

            src=img['src']       #图片的下载地址

            tup=(name,src,dirname)

            Download(name,src,dirname)  #下载图片

            csv_writer.writerow(tup)  #写入文件中

            print(tup)

            datas.append(tup)            #Download(data[0],data[1],dirname)

        fp.close()

    except Exception as e:

        print(e)

最后这个函数是下载图片

def Download(name,url,dirname):

    dir=dirname+"//"

    path=os.path.join(dir,name)

    response=requests.get(url)

    try:

        with open(path,"wb") as f:

            f.write(response.content)

            f.close()

            global i

            i=i+1   #每下载一张图片加1

    except Exception as e:

        print(e)

Python脚本爬取网站美女照片的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL 获取首页元素信息: 首页的URL链接获取: 遍历第一次返回的结果: 递归循环遍历: 全部代码如下: 小结: python3.6 requests && ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
用Python定时爬取网站最新资源
记录一下. 写做个网站,爬了另一个网站的内容来做自己网站的内容. 把脚本挂到服务器,每隔一个小时去爬一次资源,然后保存到一个HTML文件里. 用flask做web对接,当有请求的时候就返回那个HTML ...
教你用python爬取网站美女图（附代码及教程）
我前几篇文章都是说一些python爬虫库的用法,还没有说怎样利用好这些知识玩一些好玩的东西.那我今天带大家玩好玩又刺激的,嘻嘻!对了,requests库和正则表达式很重要的,一定要学会!一定要学会!! ...
【Python】爬取网站图片
import requests import bs4 import urllib.request import urllib import os hdr = {'User-Agent': 'Mozil ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...

随机推荐

Python 元类编程实现一个简单的 ORM
概述什么是ORM? ORM全称"Object Relational Mapping",即对象-关系映射,就是把关系数据库的一行映射为一个对象,也就是一个类对应一个表,这样,写代码 ...
FreeBSD 12.2 vmware 虚拟机镜像 bt 种子
安装了 KDE5 火狐浏览器 Fcitx 输入法并进行了中文设置替换软件源为国内可用. VirtualBox虚拟机也可以用 magnet:?xt=urn:btih:E88885631B57426 ...
pip安装更新模块，以及执行更新所有模块
moudle_name:是对应的模块名:请自行更换为自己需要更新的模块名查看所有可更新的模块: pip list --outdated 更新某一个模块: pip install --upgrade ...
ListView解析
ListView通过一个Adapter来完成数据和组件的绑定.以ListActivity为例,它集成自Activity,里面包含有一个ListAdapter和一个ListView.绑定的操作通过set ...
python-顺序串基本操作的实现
1 #*********************************************************************** ** 2 #> File Name: seq ...
上万字详解Spark Core（建议收藏）
先来一个问题,也是面试中常问的: Spark为什么会流行? 原因1:优秀的数据模型和丰富计算抽象 Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(m ...
elf.h
1 /* This file defines standard ELF types, structures, and macros. 2 Copyright (C) 1995-2019 Free So ...
Java例题_20 前20项之和！
1 /*20 [程序 20 求前 20 项之和] 2 题目:有一分数序列:2/1,3/2,5/3,8/5,13/8,21/13...求出这个数列的前 20 项之和. 3 程序分析:请抓住分子与分母的变 ...
PReact10.5.13源码理解之hook
hook源码其实不多,但是实现的比较精巧:在diff/index.js中会有一些optison.diff这种钩子函数,hook中就用到了这些钩子函数. 在比如options._diff中将curr ...
Node.js核心入门
前言: 因为以前学习Node.js并没有真正意义上的去学习它,而是粗略的学习了npm的常用命令和Node.js一些模块化的语法,因此昨天花了一天的时间看了<Node.js开发指南>一书.通 ...

Python脚本爬取网站美女照片

Python脚本爬取网站美女照片的更多相关文章

随机推荐

热门专题