Python爬虫爬取彼岸网4K Picture

深夜爬取4k图片

下载流程

定义page_text函数，对第一页地址发送get请求，因为页面数据在页面源代码都能查到，所以发送get 请求就ok!，注意：要进行编码格式设置，可以去源代码查看，
定义parse_data函数，利用xpath解析图片所对应的url，以及其名字，把解析到的数据都添加到列表中
定义downloadPic函数，先利用os模块，如果有这个目录就不创建，没有就创建，用for循环对刚才添加到列表中的数据（数据在datas中）进行遍历，取得名字，和地址，再对地址发起请求，这个是要下载图片，图片保存方式为二进制格式，所以这个的请求用content，最后用上下文管理器进行保存到目录中，注意：用了with 上下文管理器，最后我们就不必对文件进行关闭
主函数主要是传递一个url 参数给page_text进行分页的操作

import requests, os

from lxml import etree

# UA伪装

headers = {

    'UserAgent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"

}

# 发送请求，获取网页源代码

def page_text(url):

    response = requests.get(url=url, headers=headers)

    response.encoding = "gbk"

    page_data = response.text

    parse_data(page_data)

# 解析数据

def parse_data(page_data):

    tree = etree.HTML(page_data)

    list_data_li = tree.xpath('//div[@class="slist"]/ul/li')

    # print(list_data)

    # 用来存放解析到的图片地址

    datas = []

    # 进行遍历列表

    for li in list_data_li:

        # 拼接完整的图片地址

        li_picture = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]

        #解析图片名字

        pic_name = li.xpath('./a/b/text()')[0]

        dic = {

            'title': pic_name,

            'url': li_picture

        }

        datas.append(dic)

    return downloadPic(datas)

# 下载图片，持久化存储

def downloadPic(datas):

    if not os.path.exists('./IMG'):

        os.mkdir('IMG')

    for i in datas:

        # 图片名字

        title = i['title']

        # 图片地址

        url = i['url']

        # print(url,title)

        response = requests.get(url=url, headers=headers)

        response.encoding = "gbk"

        # 由于是图片所以响应的应该是二进制格式

        page_content = response.content

        # 持久化存储

        with open('IMG/' + title + '.jpg', 'wb') as fp:

            print(f'正在下载:{title}.jpg')

            fp.write(page_content)

    print('下载完毕！')

if __name__ == "__main__":

    # 先搞定第一页的数据

    print('------------------正在准备下载第 1 页----------------"')

    page_text('https://pic.netbian.com/4kdongman/')

    # 实现分页操作，下载多页数据

    ensure =input('第一张页面已经下载完了，是否继续下载呢\n'

                    '继续请输入y，取消请输入n：')

    if ensure == 'y' or 'Y':

        page_num =int(input('您想要下载到第几页数呢：'))

        for i in range(2, page_num + 1):

            print("------------------正在准备下载第 %d 页----------------"%i)

            page_text('https://pic.netbian.com/4kdongman/index_{}.html'.format(i))

    else:

        print('您的服务到此结束')

        exit()

Python爬虫爬取彼岸网4K Picture的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

在终端启动Python时报错的解决
最近,在终端启动Python时,报了一个错误: 1 Failed calling sys.__interactivehook__ 2 Traceback (most recent call last) ...
ProxySQL(7)：详述ProxySQL的路由规则
文章转载自:https://www.cnblogs.com/f-ck-need-u/p/9300829.html 关于ProxySQL路由的简述当ProxySQL收到前端app发送的SQL语句后,它 ...
Elastic Stack 8.0 再次创建enrollment token
enrollment token 在第一个 Elasticsearch 启动后的有效时间为30分钟.超过30分钟的时间上述 token 将会无效. enrollment token分两个,一个是kib ...
获取Docker容器名称和ID
docker ps --format "{{.Names}}" docker ps -q
Elasticsearch：如何实现对 emoji 表情符号进行搜索
转摘自:https://elasticstack.blog.csdn.net/article/details/114261636 Elasticsearch 是一个应用非常广泛的搜索引擎.它可以对文字 ...
k8s使用心得
查看当前所有namespaces [root@master ~]# kubectl get namespaces -A NAME STATUS AGE default Active 63d hkd A ...
kibana安装安装插件
命令语法:bin/kibana-plugin install <package name or URL> 当您指定的插件名没有带 URL,插件工具将会尝试去下载 Elastic 官方插件. ...
WMS 相比于 ERP 系统有哪些优势？
WMS与ERP系统是两个不同的系统,不存储优势的比较!WMS是仓库管理系统(Warehouse Management System) 的缩写,ERP是Enterprise Resource Plann ...
n维偏序方法记录
题解首先我们要对一个地点能否到达建立认知:一个地点能到达不仅仅是能从它的上一个点或上上个点跳到,而是能从第一个点开始跳一路跳到.就好比说,咱吃了6个包子吃饱了,但咱不能只付第6个包子的钱. 方法一: ...
FastJson序列化对象复杂时出错问题解决
FastJson序列化对象复杂时出错问题解决针对复杂的对象,如Map<String, List<Map<String, XxxObject<A, B, C>>&g ...

Python爬虫爬取彼岸网4K Picture

Python爬虫爬取彼岸网4K Picture的更多相关文章

随机推荐

热门专题