python实现简单爬虫抓取图片

最近在学习python,正如大家所知，python在网络爬虫方面有着广泛的应用，下面是一个利用python程序抓取网络图片的简单程序，可以批量下载一个网站更新的图片，其中使用了代理IP的技术。

import urllib.request

import os

import random

def url_open(url):

    req=urllib.request.Request(url)

    #为请求设置user-agent,使得程序看起来更像一个人类

    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0')

    #代理IP，使用户能以不同IP访问，从而防止被服务器发现

    '''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']

    proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})

    opener=urllib.request.build_opener(proxy_support)

    opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

    urllib.request.install_opener(opener)'''

    response=urllib.request.urlopen(req)

    html=response.read()

    return html

def get_page(url):

    html=url_open(url).decode('utf-8')

    a=html.find('current-comment-page')+23

    b=html.find(']',a)

    #print(html[a:b])

    return html[a:b]

def find_imgs(url):

    html=url_open(url).decode('utf-8')

    img_addrs=[]

    a=html.find('img src=')

    while a!=-1:

        b=html.find('.jpg',a,a+140)

        if b!=-1:

            if html[a+9]!='h':

                img_addrs.append('http:'+html[a+9:b+4])

            else:

                img_addrs.append(html[a+9:b+4])

        else:

            b=a+9

        a=html.find('img src=',b)

    for each in img_addrs:

        print(each+'我的打印')

    return img_addrs

def save_imgs(folder,img_addrs):

    for each in img_addrs:

        #print('one was saved')

        filename=each.split('/')[-1]

        with open(filename,'wb') as f:

            img=url_open(each)

            f.write(img)

def download_mm(folder='ooxx',pages=10):

    os.mkdir(folder)

    os.chdir(folder)

    url="http://jandan.net/ooxx/"

    page_num=int(get_page(url))

    for i in range(pages):

        page_num=page_num-1

        page_url=url+'page-'+str(page_num)+'#comments'

        img_addrs=find_imgs(page_url)

        save_imgs(folder,img_addrs)

if __name__=='__main__':

    download_mm()

完成

运行结果

python实现简单爬虫抓取图片的更多相关文章

【python】网络爬虫抓取图片
利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片今天我们用http://www.umei ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...
Python开发简单爬虫（一）
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
python多线程简单爬虫
爬虫本质就是将网站或者接口的数据经过筛选后按需求保存这里实现一个简单爬虫仅供参考 import requests import bs4 import threading import queue i ...

随机推荐

Linux cscope命令
一.简介 Cscope 是一款开源免费的 C/C++浏览工具,自带一个基于文本的用户界面,通过cscope可以很方便地找到某个函数或变量的定义位置.被调用的位置等信息.Cscope对 C /C++支持 ...
中国天气网-天气预报接口api
中国天气网地址:http://www.weather.com.cn 请求服务 : 查询实时天气信息 http://www.weather.com.cn/data/sk/101110101.html 在 ...
Jquery的初识
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
web.xml文件中的web-app元素部署
[转载]web.xml文件中的web-app元素 (2012-05-24 13:35:57) 转载▼ 标签: 转载分类: java 挺全的呵呵呵转了原文地址:web.xml文件中的web-a ...
phpcms v9无法连接数据库服务器,请检查配置
安装phpcms v9是数据库信息配置正确,但仍提示:无法连接数据库服务器,请检查配置 1.修改install/step5.tpl.php 127行为:'&dbpw='+escape($('# ...
Struts2中使用Servlet API步骤
Struts2中使用Servlet API步骤 Action类中声明request等对象 Map<String, Object> request; 获得ActionContext实例 Ac ...
转:Java NIO系列教程(五) 通道之间的数据传输
在Java NIO中,如果两个通道中有一个是FileChannel,那你可以直接将数据从一个channel(译者注:channel中文常译作通道)传输到另外一个channel. transferFro ...
jQuery基础细节
使用CDN版的jQuery 用托管在公共CDN(Content Delivery Network,内容分发网络)上的jQuery库,CDN是一种内容分发网络,当用户请求其数据时,CDN ...
Eclipse启动Tomcat，45S超时问题解决
在Eclipse中启动Tomcat服务器时,经常由于系统初始化项目多,导致出现45秒超时的Tomcat服务器启动错误. 以前我一般通过找到XML配置文件,将对应Timeout为45的值,修改为 ...
string,const char*,char*之间的相互转换
1. string转const char* string s = "abc"; const char* c_s = s.c_str(); 2. const char*转string ...

python实现简单爬虫抓取图片

最近在学习python,正如大家所知，python在网络爬虫方面有着广泛的应用，下面是一个利用python程序抓取网络图片的简单程序，可以批量下载一个网站更新的图片，其中使用了代理IP的技术。

完成

运行结果

python实现简单爬虫抓取图片的更多相关文章

随机推荐

热门专题