python批量爬取猫咪图片

不多说直接上代码

首先需要安装需要的库，安装命令如下

pip install BeautifulSoup

pip install requests

pip install urllib

pip install lxmlfrom bs4 import BeautifulSoup # 贵族名宠网页爬虫

import requests

import urllib.request

# 网址

url = 'http://www.hengdadog.com/sale-1.html'

def allpage():  # 获得所有网页

    all_url = []

    for i in range(1, 8): #循环翻页次数

        each_url = url.replace(url[-6], str(i))  # 替换

        all_url.append(each_url)

    return (all_url)  # 返回地址列表

if __name__ == '__main__':

    img_url = allpage()  # 调用函数

    for url in img_url:

        # 获得网页源代码

        print(url)

        requ = requests.get(url)

        req = requ.text.encode(requ.encoding).decode()

        html = BeautifulSoup(req, 'lxml')

        t = 0

        # 选择目标url

        img_urls = html.find_all('img')

        for k in img_urls:

            img = k.get('src')  # 图片

            print(img)

            name = str(k.get('alt'))  # 名字，这里的强制类型转换很重要

            type(name)

            # 先本地新建一下文件夹，保存图片并且命名

            path = 'F:\\CAT\\'  # 路径

            file_name = path + name + '.jpg'

            imgs = requests.get(img)     # 存储入文件

            try:

                urllib.request.urlretrieve(img, file_name)  # 打开图片地址，下载图片保存在本


            except:

                print("error")

运行效果：

上面代码有不少缺陷，比如需要手动创建目录以及判断目录是否存在，下载没有提示，于是做了些优化：

from bs4 import BeautifulSoup  # 贵族名宠网页爬虫

import requests

import urllib.request

import os

# 网址

url = 'http://www.hengdadog.com/sale-1.html'

if os.path.exists('F:\\CAT'):#判断目录是否存在，存在则跳过，不存在则创建

    pass

else:

    os.mkdir('F:\\CAT')

def allpage():  # 获得所有网页

    all_url = []

    for i in range(1, 10): #循环翻页次数

        each_url = url.replace(url[-6], str(i))  # 替换

        all_url.append(each_url)

    return (all_url)  # 返回地址列表

if __name__ == '__main__':

    img_url = allpage()  # 调用函数

    for url in img_url:

        # 获得网页源代码

        print(url)

        requ = requests.get(url)

        req = requ.text.encode(requ.encoding).decode()

        html = BeautifulSoup(req, 'lxml')

        t = 0

        # 选择目标url

        img_urls = html.find_all('img')

        for k in img_urls:

            img = k.get('src')  # 图片

            print(img)

            name = str(k.get('alt'))  # 名字，这里的强制类型转换很重要

            type(name)

            # 保存图片并且命名

            path = 'F:\\CAT\\'  # 路径

            file_name = path + name + '.jpg'

            imgs = requests.get(img)     # 存储入文件

            try:

                urllib.request.urlretrieve(img, file_name)  # 打开图片地址，下载图片保存在本地，

                print('正在下载图片到F:\CAT目录······')

            except:

                print("error")

打包成EXE文件：

进入文件目录输入如下命令

pyinstaller -F get_cat.py

python批量爬取猫咪图片的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python爬虫——爬取NUS-WIDE数据库图片
实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 由于这个数据只给了每个图片的URL,所以需 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
python批量爬取动漫免费看！！
实现效果运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应先上代码,代码非常简短,包含空行也才50 ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
java爬取猫咪上的图片
首先是对知识点归纳 1.用到获取网页源代码,分析图片地址,发现图片的地址都是按编号排列的,所以想到用循环获取 2.保存图片要用到流操作和文件操作,对两部分知识进行了复习巩固 3.保存后的图片有一部分是 ...

随机推荐

想买保时捷的运维李先生学Java性能之生存与毁灭
一.判断对象是否存活 1.引用计数算法给对象中添加一个引用计数器,每当有一个地方引用它时,计数器就加1:当引用失效时,计数器的值就减1:任何时刻计数器为0的对象是不可能再被使用的.引用计 ...
JAVA概述-JAVA入门基础
一.JAVA的历史 Java是1995年由Sun公司(现Oracle公司)推出的一门面向对象的高级编程语言.这门编程语言的Logo就像是一杯刚刚煮好的咖啡. Java最初期的开发是在1991年,最初的 ...
STM32入门系列-STM32时钟系统，自定义系统时钟
在时钟树的讲解中我们知道,通过修改PLLMUL中的倍系数值(2-16)可以改变系统的时钟频率.在库函数中也有对时钟倍频因子配置的函数,如下: void RCC_PLLConfig(uint32_t R ...
《Clojure编程》笔记第3章集合类与数据结构
目录背景简述第3章集合类与数据结构 3.1 抽象优于实现 3.1.1 Collection 3.1.2 Sequence 3.1.3 Associative 3.1.4 Indexed 3.1. ...
【Kata Daily 191010】Grasshopper - Summation（加总）
题目: Summation Write a program that finds the summation of every number from 1 to num. The number wil ...
VSCcode中使用git
1.配置文件 -> 首选项 -> 配置出现json格式的配置项,左侧为默认设置,右侧为自定义设置: 加一行: "git.path": Git目录下cmd下的git ...
3.2spring源码系列----循环依赖源码分析
首先,我们在3.1 spring5源码系列--循环依赖之手写代码模拟spring循环依赖中手写了循环依赖的实现. 这个实现就是模拟的spring的循环依赖. 目的是为了更容易理解spring源码 ...
MySQL主从复制的原理和注意事项都在这儿了！！
写在前面最近在写Mycat专题,由于不少小伙伴最近要出去面试,问我能不能简单写下MySQL的主从复制原理和注意事项,因为在之前的面试中被问到了这些问题.我:可以啊,安排上了!! 主从复制原理 (1) ...
内核crash>>>磁盘空间小怎么处理
在内存发生panic时,需要把panic的日志保存下来.以方便日后进行分析. 一般主机为x86的时候,panic 使用 kdump保存log.由于它使用占用大量内存和硬盘.所以当磁盘空间不够时,就会遇 ...
mysql 面试100 问(精华学习)。待开始理
https://juejin.im/post/6850037271233331208 https://juejin.im/entry/6844903681091977229

python批量爬取猫咪图片

python批量爬取猫咪图片的更多相关文章

随机推荐

热门专题