Python超简单的爬取网站中图片

1、首先导入相关库

import requests

import bs4

import threading #用于多线程爬虫，爬取速度快，可以完成多页爬取

import os

2、使用bs4获取html中的内容

所爬取的网站：http://www.umei.cc/bizhitupian/diannaobizhi/1.htm 这只是第一页中的图片当然可以批量爬取里面所有的图片

bs = bs4.BeautifulSoup(requests.get(r"http://www.umei.cc/bizhitupian/diannaobizhi/1.htm").text)

到这一步我们就已经拿到了该页面的HTML了，发现输出的HTML有点乱码，这时我们可以改良一下我们的代码

import bs4

import requests

import os

req = requests.get(r"http://www.umei.cc/bizhitupian/diannaobizhi/1.htm")

req.encoding="utf-8"

bs = bs4.BeautifulSoup(req.text)

这样可以解决爬取出来的HTML乱码的问题

3、拿到HTML后就进行匹配我们所需要的图片标签

obj = bs.find_all("a",{"class":{"TypeBigPics"}}) #a代表的是<a>标签 class是<a>标签中所对应的class  TypeBigPics为<a>标签中class中对应的值，根据class中的值找出对应图片的<a>标签

这时就拿到了图片所对应的所有的<a>标签 find_all()取去出所有匹配的对象，find()则是取出一条

4、接着取出<a>标签里面的所有img标签

imgObj=[] #用于存储img对象

for s in obj:

    imgObj.append(s.find("img")) #把取出的img对象存入imgObj数组中

5、接着获取img标签中src中的值

srcObj=[] #用于存储图片src对象for o in imgObj:

    srcObj.append(o.get("src"))

这时我们就得到了网页上所有图片的文件路径，下一步就可以进行下载这些图片了

6、下载图片

for img in srcObj:

    with open("D:\\Images\\"+os.path.basename(img),'wb') as f:

        f.write(requests.get(img).content)

    print(os.path.basename(img)+"保存成功")

srcObj为上面所拿到的图片地址，D:\\Images\\为本地保存目录注意：要用双斜杠 os.path.basename(img)为图片原文件名也可替换成自己设置文件名到这里简单的爬虫就已经结束了

7、全部代码如下

import bs4

import requests

import os

req = requests.get(r"http://www.umei.cc/bizhitupian/diannaobizhi/1.htm")

req.encoding="utf-8"

bs = bs4.BeautifulSoup(req.text)

obj = bs.find_all("a",{"class":{"TypeBigPics"}})

objHtml=[]

objImg=[]

for s in obj:

    objHtml.append(s.find("img"))

for o in objHtml:

    objImg.append(o.get("src"))

for img in objImg:

    with open("D:\\pics22223\\"+os.path.basename(img),'wb') as f:

        f.write(requests.get(img).content)

    print(os.path.basename(img)+"保存成功");

8、使用多线程爬取此站所有的图片

这里就直接上源码了

import bs4

import requests

import os
import threading

def ojue(i):

    bs = bs4.BeautifulSoup(requests.get(r"http://www.umei.cc/bizhitupian/diannaobizhi/"+i+".htm").text)

    obj = bs.find_all("a",{"class":{"TypeBigPics"}})

    objHtml=[]

    ImgObj=[]

    for f in obj:

        objHtml.append(f.get("href"))

    for z in objHtml:

        htmlText = bs4.BeautifulSoup(requests.get(z).text)

        Img = htmlText.find_all("img")

        for c in Img:

            ImgObj.append(c.get("src"))

            for img in ImgObj:

                with open("D:\\pics22223\\"+os.path.basename(img),'wb') as f:

                    f.write(requests.get(img).content)

                print(os.path.basename(img)+"保存成功")

for i in range(627): #range()从0开始取到627

    threading.Thread(target=ojue,args=(i+1,)).start() #target 参数是对应的函数名称

Python超简单的爬取网站中图片的更多相关文章

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【Python】简单实现爬取小说《天龙八部》，并在页面本地访问
背景很多人说学习爬虫是提升自己的一个非常好的方法,所以有了第一次使用爬虫,水平有限,依葫芦画瓢,主要作为学习的记录. 思路使用python的requests模块获取页面信息通过re模块(正则表达 ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
python爬虫简单代码爬取郭德纲单口相声
搜索老郭的单口相声,打开检查模式,刷新没有什么有价值的东东, 不过....清掉内容, 点击一个相声,再看看有些什么是不是发现了些什么我们来点击这个看看, 首先看一下headers, 这个url是 ...
HttpClient爬取网站及图片
1.什么是HttpClient? HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 ...
一个自定义python分布式专用爬虫框架。支持断点爬取和确保消息100%不丢失，哪怕是在爬取进行中随意关停和随意对电脑断电。
0.此框架只能用于爬虫,由框架来调度url请求,必须按照此方式开发,没有做到类似celery的通用分布式功能,也不方便测试.可以使用另外一个,基于函数式编程的,调度一切函数的分布式框架,做到了兼容任何 ...

随机推荐

来，我们手写一个简易版的mock.js吧（模拟fetch && Ajax请求）
预期的mock的使用方式首先我们从使用的角度出发,思考编码过程 M1. 通过配置文件配置url和response M2. 自动检测环境为开发环境时启动Mock.js M3. mock代码能直接覆盖g ...
Matlab 在线使用 | 推荐
Matlab 在线使用 | 推荐
vue之注册自定义的全局js方法
前端开发的时候,总会需要写一些js方法,在vue框架中为了方便使用,可以考虑注册一个全局的js方法,下面是注册步骤: 1.0 可以在assets文件中的js文件下面新建一个js文件,如:yun.js- ...
python模块——socket
实例一. server: #socket套接字(IP + 端口号)(qq,wechat 发送接收消息依靠socket模块),cs架构import socketserver = socket.socke ...
SpringBoot 整合jdbc和mybatis
摘要该文章主要为记录如何在SpringBoot项目中整合JDBC和MyBatis,在整合中我会使用简单的用法和测试用例,毕竟该文章目的是为了整合,而不是教大家如何去使用.希望大家多多包涵. 通用配置 ...
Kickstart Round H 2019 Problem B. Diagonal Puzzle
有史以来打得最差的一次kickstart竟然发生在winter camp出结果前的最后一次ks = = 感觉自己的winter camp要凉了究其原因,无非自己太眼高手低,好好做B, C的小数据,也 ...
用PHP+Redis实现延迟任务，实现自动取消订单
简单定时任务解决方案:使用redis的keyspace notifications(键失效后通知事件) 需要注意此功能是在redis 2.8版本以后推出的,因此你服务器上的reids最少要是2.8版本 ...
abp(net core)+easyui+efcore实现仓储管理系统——ABP WebAPI与EasyUI结合增删改查之一(二十七)
abp(net core)+easyui+efcore实现仓储管理系统目录 abp(net core)+easyui+efcore实现仓储管理系统——ABP总体介绍(一) abp(net core)+ ...
力扣（LeetCode）两整数之和个人题解
不使用运算符 + 和 - ,计算两整数 a .b 之和. 示例 1: 输入: a = 1, b = 2 输出: 3 示例 2: 输入: a = -2, b = ...
护网杯一道crypto
import os def xor(a,b): assert len(a)==len(b) c="" for i in range(len(a)): c+=chr(ord(a[i] ...