Python3批量爬取网页图片

所谓爬取其实就是获取链接的内容保存到本地。所以爬之前需要先知道要爬的链接是什么。

要爬取的页面是这个：http://findicons.com/pack/2787/beautiful_flat_icons

里面有很多不错的图标，目标就是把这些文件图片爬下来，保存成本地图片。

用python3怎么做呢？

第一步：获取要爬取的母网页的内容

import urllib.request

import re

url = "http://findicons.com/pack/2787/beautiful_flat_icons"

webPage=urllib.request.urlopen(url)

data = webPage.read()

data = data.decode('UTF-8')

第二步：对母网页内容处理，提取出里面的图片链接

k = re.split(r'\s+',data)

s = []

sp = []

si = []

for i in k :

    if (re.match(r'src',i) or re.match(r'href',i)):

        if (not re.match(r'href="#"',i)):

            if (re.match(r'.*?png"',i) or re.match(r'.*?ico"',i)):

                if (re.match(r'src',i)):

                    s.append(i)

for it in s :

    if (re.match(r'.*?png"',it)):

        sp.append(it)

第三步：获取这些图片链接的内容，并保存成本地图片

cnt = 0

cou = 1

for it in sp:

    m = re.search(r'src="(.*?)"',it)

    iturl = m.group(1)

    print(iturl)

    if (iturl[0]=='/'):

        continue;

    web = urllib.request.urlopen(iturl)

    itdata = web.read()

    if (cnt%3==1 and cnt>=4 and cou<=30):

        f = open('d:/pythoncode/simplecodes/image/'+str(cou)+'.png',"wb")

        cou = cou+1

        f.write(itdata)

        f.close()

        print(it)

    cnt = cnt+1

保存目录可以自行设定。

以下是综合起来的代码：

import urllib.request

import re

url = "http://findicons.com/pack/2787/beautiful_flat_icons"

webPage=urllib.request.urlopen(url)

data = webPage.read()

data = data.decode('UTF-8')

k = re.split(r'\s+',data)

s = []

sp = []

si = []

for i in k :

    if (re.match(r'src',i) or re.match(r'href',i)):

        if (not re.match(r'href="#"',i)):

            if (re.match(r'.*?png"',i) or re.match(r'.*?ico"',i)):

                if (re.match(r'src',i)):

                    s.append(i)

for it in s :

    if (re.match(r'.*?png"',it)):

        sp.append(it)

cnt = 0

cou = 1

for it in sp:

    m = re.search(r'src="(.*?)"',it)

    iturl = m.group(1)

    print(iturl)

    if (iturl[0]=='/'):

        continue;

    web = urllib.request.urlopen(iturl)

    itdata = web.read()

    if (cnt%3==1 and cnt>=4 and cou<=30):

        f = open('d:/pythoncode/simplecodes/image/'+str(cou)+'.png',"wb")

        cou = cou+1

        f.write(itdata)

        f.close()

        print(it)

    cnt = cnt+1

Python3批量爬取网页图片的更多相关文章

python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
erlang 爬虫——爬取网页图片
说起爬虫,大家第一印象就是想到了python来做爬虫.其实,服务端语言好些都可以来实现这个东东. 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌 ...
【Python】python3 正则爬取网页输出中文乱码解决
爬取网页时候print输出的时候有中文输出乱码例如: \\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80 #爬取https:// ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...

随机推荐

UVA 11090 Going in Cycle!!（二分答案+判负环）
在加权有向图中求平均权值最小的回路. 一上手没有思路,看到“回路”,第一想法就是找连通分量,可又是加权图,没什么好思路,那就转换题意:由求回路权值->判负环,求最小值->常用二分答案. 二 ...
distinct数据去重关键字
在表中,可能会包含重复值.这并不成问题,不过,有时您也许希望仅仅列出不同(distinct)的值.关键词 distinct用于返回唯一不同的值. 表A: 示例1 select distinct nam ...
动态生成图片保存到OutputStream
#region 把图片Copy到输出流 //获得图片全路径 string path = context.Server.MapPath("~/img/158_003.jpg"); / ...
转载：Hadoop权威指南学习笔记
转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言 Hadoop的内部工作机制: ...
webdriver(python)学习笔记五——层级定位
层级定位在实际的项目测试中,经常会有这样的需求:页面上有很多个属性基本相同的元素,现在需要具体定位到其中的一个.由于属性基本相当,所以在定位的时候会有些麻烦,这时候就需要用到层级定位.先定位父元素, ...
【Mongo】Linux安装MongoDB
呵呵哒,每天都是小惊喜. 一下载 https://www.mongodb.org/downloads可进行下载,根据需要选择合适的版本和操作系统二上传服务器 1 上传服务器路径并解压 2 创建数 ...
使用IP欺骗Loadrunner并发测试小结
测试要求: 在本次测试中,我需要并发50个User,每一个User占用一个独立的IP,并且只执行一次脚本.脚本中发起两个请求,其中第一次请求返回200后才执行第二个请求.使用win7 OS. ...
我喜欢的乐队-Euphoria
来自日本的后摇乐团,001年冬天由森川裕之.佐藤昭太.木下阳辅三人于东京组建,2003年签约日本独立厂牌123Record,并发行首张EP细碟<Floral Dew>.包括EP.Singl ...
kmeans算法的matlab实践
把图像中所有的像素点进行RGB聚类分析,然后输出看结果 img = imread('qq.png'); %取出R矩阵,并将这个R矩阵拉成一列 imgR = img(:,:,1); imgR = img ...
添加删除ASM磁盘
创建磁盘: [root@kel ~]# oracleasm createdisk KEL3 /dev/sdf1 Writing disk header: done Instantiating disk ...

Python3批量爬取网页图片

Python3批量爬取网页图片的更多相关文章

随机推荐

热门专题