一：前言

嘀嘀嘀，上车请刷卡。昨天看到了不错的图片分享网——花瓣，里面的图片质量还不错，所以利用selenium+xpath我把它的妹子的栏目下爬取了下来，以图片栏目名称给文件夹命名分类保存到电脑中。这个妹子主页http://huaban.com/boards/favorite/beauty 是动态加载的，如果想获取更多内容可以模拟下拉，这样就可以更多的图片资源。这种之前爬虫中也做过，但是因为网速不够快所以我就抓了19个栏目，一共500多张美图，也已经很满意了。

先看看效果：

Paste_Image.png

二：运行环境

IDE：Pycharm
Python3.6
lxml 3.7.2
Selenium 3.4.0
requests 2.12.4

三：实例分析

1.这次爬虫我开始做的思路是：进入这个网页http://huaban.com/boards/favorite/beauty然后来获取所有的图片栏目对应网址，然后进入每一个网页中去获取全部图片。（如下图所示）

Paste_Image.png

2.但是爬取获取的图片分辨率是236x354，图片质量不够高，但是那个时候已经是晚上1点30之后了，所以第二天做了另一个版本：在这个基础上再进入每个缩略图对应的网页，再抓取像下面这样高清的图片。

Paste_Image.png

四：实战代码

1.第一步导入本次爬虫需要的模块

__author__ = '布咯咯_rieuse'

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.ui import WebDriverWait

from selenium import webdriver

import requests

import lxml.html

import os

2.下面是设置webdriver的种类，就是使用什么浏览器进行模拟，可以使用火狐来看它模拟的过程，也可以是无头浏览器PhantomJS来快速获取资源，['--load-images=false', '--disk-cache=true']这个意思是模拟浏览的时候不加载图片和缓存，这样运行速度会加快一些。WebDriverWait标明最大等待浏览器加载为10秒，set_window_size可以设置一下模拟浏览网页的大小。有些网站如果大小不到位，那么一些资源就不加载出来。

# SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']

# browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)

browser = webdriver.Firefox()

wait = WebDriverWait(browser, 10)

browser.set_window_size(1400, 900)

3.parser(url, param)这个函数用来解析网页，后面有几次都用用到这些代码，所以直接写一个函数会让代码看起来更整洁有序。函数有两个参数：一个是网址，另一个是显性等待代表的部分，这个可以是网页中的某些板块，按钮，图片等等...

def parser(url, param):

    browser.get(url)

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, param)))

    html = browser.page_source

    doc = lxml.html.fromstring(html)

    return doc

4.下面的代码就是解析本次主页面http://huaban.com/boards/favorite/beauty/ 然后获取到每个栏目的网址和栏目的名称，使用xpath来获取栏目的网页时，进入网页开发者模式后，如图所示进行操作。之后需要用栏目名称在电脑中建立文件夹，所以在这个网页中要获取到栏目的名称，这里遇到一个问题，一些名称不符合文件命名规则要剔除，我这里就是一个 * 影响了。

def get_main_url():

    print('打开主页搜寻链接中...')

    try:

        doc = parser('http://huaban.com/boards/favorite/beauty/', '#waterfall')

        name = doc.xpath('//*[@id="waterfall"]/div/a[1]/div[2]/h3/text()')

        u = doc.xpath('//*[@id="waterfall"]/div/a[1]/@href')

        for item, fileName in zip(u, name):

            main_url = 'http://huaban.com' + item

            print('主链接已找到' + main_url)

            if '*' in fileName:

                fileName = fileName.replace('*', '')

            download(main_url, fileName)

    except Exception as e:

        print(e)

Paste_Image.png

5.前面已经获取到栏目的网页和栏目的名称，这里就需要对栏目的网页分析，进入栏目网页后，只是一些缩略图，我们不想要这些低分辨率的图片，所以要再进入每个缩略图中，解析网页获取到真正的高清图片网址。这里也有一个地方比较坑人，就是一个栏目中，不同的图片存放dom格式不一样，所以我这样做

img_url = doc.xpath('//*[@id="baidu_image_holder"]/a/img/@src')

img_url2 = doc.xpath('//*[@id="baidu_image_holder"]/img/@src')

这就把两种dom格式中的图片地址都获取了，然后把两个地址list合并一下。img_url +=img_url2
在本地创建文件夹使用filename = 'image\{}\'.format(fileName) + str(i) + '.jpg'表示文件保存在与这个爬虫代码同级目录image下，然后获取的图片保存在image中按照之前获取的栏目名称的文件夹中。

def download(main_url, fileName):

    print('-------准备下载中-------')

    try:

        doc = parser(main_url, '#waterfall')

        if not os.path.exists('image\\' + fileName):

            print('创建文件夹...')

            os.makedirs('image\\' + fileName)

        link = doc.xpath('//*[@id="waterfall"]/div/a/@href')

        # print(link)

        i = 0

        for item in link:

            i += 1

            minor_url = 'http://huaban.com' + item

            doc = parser(minor_url, '#pin_view_page')

            img_url = doc.xpath('//*[@id="baidu_image_holder"]/a/img/@src')

            img_url2 = doc.xpath('//*[@id="baidu_image_holder"]/img/@src')

            img_url +=img_url2

            try:

                url = 'http:' + str(img_url[0])

                print('正在下载第' + str(i) + '张图片，地址：' + url)

                r = requests.get(url)

                filename = 'image\\{}\\'.format(fileName) + str(i) + '.jpg'

                with open(filename, 'wb') as fo:

                    fo.write(r.content)

            except Exception:

                print('出错了！')

    except Exception:

        print('出错啦!')

if __name__ == '__main__':

    get_main_url()

五：总结

这次爬虫继续练习了Selenium和xpath的使用，在网页分析的时候也遇到很多问题，只有不断练习才能把自己不会部分减少，当然这次爬取了500多张妹纸还是挺养眼的。

学习过程中遇到什么问题或者想获取学习资源的话，欢迎加入学习交流群
626062078，我们一起学Python！

Python抓取花瓣网高清美图的更多相关文章

async 异步抓取花瓣网高清大图 30s爬取500张
废话不多说,直接上代码,不懂得看注释先安装 pip install aiohttp "异步抓取花瓣网图片" # pip install aiohttp import requ ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
Python抓取第一网贷中国网贷理财每日收益率指数
链接:http://www.p2p001.com/licai/index/id/147.html 所需获取数据链接类似于:http://www.p2p001.com/licai/shownews/id ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
分析 ajax 请求并抓取今日头条街拍美图
首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请 ...

随机推荐

【Luogu】P2901牛慢跑（K短路模板）
题目链接 K短路居然用A*……奇妙. 先建反图从终点(1)跑一遍最短路,再A*,用堆存当前点到终点距离+从起点到当前点距离. 每次取出终点都可以视为发现了一个新的最短路. #include<cs ...
【题解】洛谷9月月赛加时赛 —— Never·island
有趣有趣~ヾ(✿ﾟ▽ﾟ)ノ真的很有意思的一道dp题!感觉可以提供很多非常有意思的思路~ 现场打的时候考虑了很久,但并没有做出来,主要还是卡在了两个地方:1.考虑到按照端点来进行dp,但没有办法将两个端 ...
[洛谷P3979]遥远的国度
题目大意:有一棵$n$个点的树,每个点有一个点权,有三种操作: $1\;x:$把根变成$x$ $2\;u\;v\;x:$把路径$u->v$上的点权改为$x$ $3\;x:$询问以$x$为根的子树 ...
axios携带cookie配置详解(axios+koa) 原
话不多说,一个字,干! 前端配置如下: axios.defaults.withCredentials = true; //配置为tru openid: 'oJ0mVw4QrfS603gFa_uAFDA ...
BZOJ4009 & 洛谷3242 & LOJ2113：[HNOI2015]接水果——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=4009 https://www.luogu.org/problemnew/show/P3242 ht ...
HDU.1575 Tr A ( 矩阵快速幂)
HDU.1575 Tr A ( 矩阵快速幂) 点我挑战题目题意分析直接求矩阵A^K的结果,然后计算正对角线,即左上到右下对角线的和,结果模9973后输出即可. 由于此题矩阵直接给出的,题目比较裸. ...
IDEA批量修改变量快捷键
Window: Ctrl+Shift+Alt+J Mac: Ctrl+Option+G
CodeBlocks调试功能快捷教程
在程序设计中,单步调试能够跟踪程序的执行流程.跟踪过程中,还可以观察变量的变化,从而发现其中存在的问题.单步执行除了可以帮助我们发现设计的程序中存在的问题,对于初学者,还可以帮助我们理解语言的机制. ...
访问修饰符public，private，protected和default的区别？
类的成员不写访问修饰符默认为default,默认对于同一个包的其他类相当于公开(public),对于不是同一个包的其他类相当于私有(private). 受保护(protected)对子类相当于公开,对 ...
pc扫码支付
https://www.cnblogs.com/shengyu-kmust/p/5228261.html https://pay.weixin.qq.com/wiki/doc/api/native.p ...

Python抓取花瓣网高清美图

一：前言

二：运行环境

三：实例分析

四：实战代码

五：总结

Python抓取花瓣网高清美图的更多相关文章

随机推荐

热门专题