Python 网络爬虫（图片采集脚本）

===============爬虫原理==================

通过Python访问网站，获取网站的HTML代码，通过正则表达式获取特定的img标签中src的图片地址。

之后再访问图片地址，并通过IO操作将图片保存到本地。

===============脚本代码==================

import urllib.request  # 网络访问模块

import random  # 随机数生成模块

import re  # 正则表达式模块

import os  # 目录结构处理模块

# 初始化配置参数

number = 10  # 图片收集数量

path = 'img/'  # 图片存放目录

# 文件操作

if not os.path.exists(path):

    os.makedirs(path)

# 图片保存

def save_img(url, path):

    message = None

    try:

        file = open(path + os.path.basename(url), 'wb')

        request = urllib.request.urlopen(url)

        file.write(request.read())

    except Exception as e:

        message = str(e)

    else:

        message = os.path.basename(url)

    finally:

        if not file.closed:

            file.close()

        return message

# 网络连接

http = 'http://zerospace.asika.tw/photo/'  # 目标网址

position = 290 + int((1000 - number) * random.random())

ids = range(position, position + number)

for id in ids:

    try:

        url = "%s%d.html" % (http, id)  # 后缀生成

        request = urllib.request.urlopen(url)

    except Exception as e:

        print(e)

        continue

    else:

        buffer = request.read()

        buffer = buffer.decode('utf8')

        pattern = 'class="content-img".+\s+.+src="(.+\.jpg)"'

        imgurl = re.findall(pattern, buffer)  # 过滤规则

        if len(imgurl) != 0:

            print(save_img(imgurl[0], path))

        else:

            continue

    pass

===============运行结果==================

Python 网络爬虫（图片采集脚本）的更多相关文章

python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取
前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

随机推荐

[LeetCode] Ones and Zeroes 一和零
In the computer world, use restricted resource you have to generate maximum benefit is what we alway ...
[LeetCode] Climbing Stairs 爬梯子问题
You are climbing a stair case. It takes n steps to reach to the top. Each time you can either climb ...
[个人翻译]Redis 集群教程（上）
官方原文地址:https://redis.io/topics/cluster-tutorial 水平有限,如果您在阅读过程中发现有翻译的不合理的地方,请留言,我会尽快修改,谢谢. 这是 ...
PowerBuilder笔记
powerbuilder中怎样新建一个pbl文件在创建pbw之后,右键单击pbw,点新建,弹出对话矿,按图操作,就能创建pbl 主程序入口: 主程序入口代码: // Profile ahzbmysq ...
C#笔记
关键字: 1.internal 被 internal 修饰的东西只能在本程序集(当前项目)内被使用. 注意事项: 1.解决c#代码引用c/c++代码出现的unsafe code错误警告提示 Unsaf ...
每日一记-mybatis碰到的疑惑：String类型可以传入多个参数吗
碰到一个觉得很疑惑的问题,Mybatis的parameterType为String类型的时候,能够接收多个参数的吗? 背景初学Mybatis的时候,看的教程和书籍上都是在说基本的数据类型如:int. ...
关于List的ConcurrentModificationException
对ArrayList的操作我们可以通过索引象来访问,也可以通过Iterator来访问,只要不对ArrayList结构上进行修改都不会造成ConcurrentModificationException, ...
C#操作图片帮助类
using System; using System.Collections; using System.IO; using System.Drawing; using System.Drawing. ...
关于C++默认初始化的总结——开个坑
关于C++初始化总结的博客,其实以前在我的独立博客上写过相关的内容,可惜呀,没有续费,腾讯回收了我的空间, 到现在,关于C++初始化的内容,一直是我的心头病,现在准备开个坑,慢慢的总结进来吧. 1.关 ...
NOIP2016滚粗记
想了好久还是决定要写... Day0 Day-5得感冒一直没好,连磕5天药丸. 早晨得知爸妈都要上班并不能送我到校的消息,于是计划10:30集合,定表8:45准备自己走去学校. 然后平常睡得有点晚,结 ...

Python 网络爬虫（图片采集脚本）

Python 网络爬虫（图片采集脚本）的更多相关文章

随机推荐

热门专题