【python】网络爬虫抓取图片

利用python抓取网络图片的步骤：

　　1.根据给定的网址获取网页源代码

　　2.利用正则表达式把源代码中的图片地址过滤出来

　　3.根据过滤出来的图片地址下载网络图片

今天我们用http://www.umei.cc/作为事例，教大家爬取美女图片：

1：打开http://www.umei.cc/

2：打开网页源代码，找到图片的正则规则：

3：开始爬取

#-*-coding:utf-8-*-

# 正则

import re

# 网络交互

import requests

# 操作系统功能

import os

# 定义一个类

class Spider:

    #定义一个函数

    def savePageInfo(self, _url, _position, _regX):

        # 要爬的网址

        url = _url

        # 本地地址

        position = _position

　　　　 # 获取网页源代码

        html = requests.get(url).text

        # 正则

        regX = _regX

        pic_url = re.findall(regX,html,re.S)

        i = 0

        for each in pic_url:

            pic = requests.get( each )

            print  url + each

            # 如果文件夹不存在，则创建一个文件夹

            if not os.path.isdir(position):

                os.makedirs(position)

            fp = open( position+str(i)+'.jpg', 'wb' )

            fp.write(pic.content)

            # print position+each

            fp.close()

            i+=1

#＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝网页爬取图片＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

position_end = ''

# 要爬的网址

url = 'http://www.umei.cc/' + position_end

# 本地地址

position = '/Users/edison/Desktop/1/' + position_end

# 正则

regX = '_blank\'><img src=(.*?) t'

#参数 url, 储存位置, 爬取的正则

spider = Spider()

spider.savePageInfo(url, position, regX)

三分钟学会，如囊中取物。

工具：PyCharm

MT.Team

【python】网络爬虫抓取图片的更多相关文章

如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
C++网络爬虫抓取图片
1.首先取一个初始网页,例如百度图片里面的网页(假设url为 http://image.baidu.com/channel/fashion ): 2.向image.baidu.com发送一个请求(GE ...
python网络爬虫&&爬取图片
爬取学院官网数据from urllib.request import * #导入所有request urllib文件夹,request只是里面的一个模块from lxml import etree # ...
python 网络爬虫（二） BFS不断抓URL并放到文件中
上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...

随机推荐

在ios7系统下，scrollView下移20像素
从设备图库返回到scrollView时,scrollView会下移20像素,解决办法:self.edgesForExtendedLayout = UIRectEdgeNone; 如果加入此代码导致其他 ...
关于arraylist.remove的一些小问题。
public static void main(String[] args) { // TODO Auto-generated method stub ArrayList<Integer> ...
AJAX之JSON
AJAX=Asynchronous JavaScript and XML(异步的JavaScript 和XML). AJAX不是新的编程语言,而是一种是用现代标准的新方法,用于创建快速动态网页的技术. ...
dedecms5.7文章实现阅读全文功能二次开发
阅读全文功能其实在很多的流行站点都有的,比如网易,新浪等,随着文章内容的增加,当一个页面有多个分页的时候,就会显示出这个“在本页阅读全文”的链接,点击这个链接之后,出现的,将是这篇文章以没有分页出现的 ...
iOS定位 - 普通定位(没有地图) - 反地理编码(得到具体位置)
#import <CoreLocation/CoreLocation.h> 使用到的头文件要引入CoreLocation这个包 <CLLocationManagerDelegate ...
[Bootstrap]组件（一）
Glyphicons字体图标基类.glyphicon {position/top/display/font-family/} 具体类 {content} --表现在伪元素上使用要点:a.基类 ...
最新13个加速 Web 开发的框架和工具
我们为开发人员挑选了15个最新的Web开发框架,你肯定尝试一下这些新鲜的框架,有的可能略微复杂,有的提供了很多的配置选项,也有一些窗口小部件和界面交互的选择.他们将帮助你创建更优秀的网站,提供给用户更 ...
Eclipse 快捷键快捷输入
快捷键: 1. ctrl+shift+r:打开资源这可能是所有快捷键组合中最省时间的了.这组快捷键可以让你打开你的工作区中任何一个文件,而你只需要按下文件名或mask名中的前几个字母,比如appli ...
非常难得的iPad版房地产售楼助手应用
一款高质量的iPad房地产售楼助手应用,采用的是类似facebook,新浪微博,腾讯微博,人人网的布局视图.功能有:客户管理系统(可添加,编辑等):2.房源管理系统;3.房贷计算器等,这个应用无论是布 ...
[转]Linux 分区 swap
如何合理设置Linux的swap分区原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://commandos.blog.51cto.c ...

【python】网络爬虫抓取图片

【python】网络爬虫抓取图片的更多相关文章

随机推荐

热门专题