python爬虫学习-爬取某个网站上的所有图片

最近简单地看了下python爬虫的视频。便自己尝试写了下爬虫操作，计划的是把某一个网站上的美女图全给爬下来，不过经过计算，查不多有好几百G的样子，还是算了。就首先下载一点点先看看。

本次爬虫使用的是python2.7的版本，并且本次的目标网站并没有采用js来加载图片，所以没有涉及对js脚本的解析，都是通过来分析html文件通过正则来一步步提取图片网址，然后存起来。

首先这个网站有很多分类，到美女图这个子网页，可以发现有很多页，同时每页有多个相册，每个相册点进去就会有多个页，每页有多张照片

流程大概是这样

找到所有页数

----遍历所有的页数

----遍历当前页的所有相册(给每个相册建立一个目录)

----遍历当前相册的所有图片(遍历此相册的所有页(遍历当前页的所有照片并找到图片的url))

----获得图片url就存起来

不说了，直接上代码

这个版本是windows上的运行版本

import urllib

import re

import os

import time

import socket

def get_html(url):

    socket.setdefaulttimeout(10)

    papg = urllib.urlopen(url)

    html = papg.read()

    html = unicode(html, "gbk").encode("utf8")

    return html

def get_img(html):

    imgre = re.compile(r'<img src="(.*?)"')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        print imgurl

        global x

        urllib.urlretrieve(imgurl, '.\\photo\%05d.jpg'%x)

        x += 1

        print("正在下载第%s张图片"%x)

def get_tag_list(html):

    szurlre = re.compile(r'<a href="(http://www.5442.com/tag/.*?.html)" class')

    tag_list = re.findall(szurlre, html)

    return tag_list

def get_page_num(html):

    szurlre = re.compile(r'(\d+).html\'>末页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

def get_page_num2(html):

    szurlre = re.compile(r'共(\d+)页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

#获得单页的相册

def get_ablum_list(html):

    szurlre = re.compile(r'(http://www.5442.com/meinv/2\d+/\d+.html)" target=')

    ablum_list = re.findall(szurlre, html);

    return ablum_list

#获得相册的名称

def get_ablum_name(html):

    szurlre = re.compile(r'<title>(\S+)</title>')

    ablum_name = re.findall(szurlre, html)

    return ablum_name[0]

#获得单页的图片

def get_photo(html, dir, photo_num):

    imgre = re.compile(r'点击图片进入下一页\' ><img src=\'(http://\S+.jpg)\' alt=')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        try:

            socket.setdefaulttimeout(2)

            urllib.urlretrieve(imgurl, unicode('.\\photo\\%s\%05d.jpg'%(dir, photo_num), "utf8"))

            print("正在下载第%s张图片"%photo_num)

            photo_num = photo_num + 1

        except:

            continue

    return photo_num

url = "http://www.5442.com/meinv/"

baseurl = "http://www.5442.com"

html = get_html(url)

page_num = get_page_num(html)

print ("一共有%s页"%page_num)

ablum_num = 0

try:

    os.mkdir("photo")

except:

    print "目录已经存在，继续下载"

#遍历所有的页

for i in range(1, page_num):

    if i != 1:

        url = "http://www.5442.com/meinv/list_1_%s.html"%i

        try:

            html = get_html(url)

        except:

            continue

    ablum_list = get_ablum_list(html)

    #遍历当前页的所有相册

    for ablum_url in ablum_list:

        ablum_num = ablum_num + 1

        try:

            photo_html = get_html(ablum_url)

        except:

            continue

        url_part = ablum_url[0:-5]

        photo_page_num = get_page_num2(photo_html)

        #获取相册名有点问题，直接以数字来创建更加方便，便于分

        #ablum_name = get_ablum_name(photo_html)

        ablum_name = "编程资料" + "%05d" % ablum_num

        print ablum_name

        photo_num = 0

        #创建相册对应的目录

        ui_ablum_name = unicode(ablum_name, "utf8")

        try:

            os.mkdir(".\\photo\\"+ui_ablum_name)

        except:

            continue

        for i in range(1, photo_page_num):

            if i != 1:

                ablum_url = url_part + "_%d"%i + ".html"

                try:

                    photo_html = get_html(ablum_url)

                except:

                    continue

            #进行存储操作

            photo_num = get_photo(photo_html, ablum_name, photo_num)

运行效果截图:

这样就运行成功了。

以下是linux下的运行代码，主要是编码和存储的路径格式不一样

#!/usr/bin/python

# -*- coding:utf8 -*-

import urllib

import re

import os

import time

import socket

def get_html(url):

    socket.setdefaulttimeout(2)

    papg = urllib.urlopen(url)

    html = papg.read()

    html = unicode(html, "gbk").encode("utf8")

    return html

def get_img(html):

    imgre = re.compile(r'<img src="(.*?)"')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        print imgurl

        global x

        urllib.urlretrieve(imgurl, '.\\photo\%05d.jpg'%x)

        x += 1

        print("正在下载第%s张图片"%x)

def get_tag_list(html):

    szurlre = re.compile(r'<a href="(http://www.5442.com/tag/.*?.html)" class')

    tag_list = re.findall(szurlre, html)

    return tag_list

def get_page_num(html):

    szurlre = re.compile(r'(\d+).html\'>末页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

def get_page_num2(html):

    szurlre = re.compile(r'共(\d+)页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

#获得单页的相册

def get_ablum_list(html):

    szurlre = re.compile(r'(http://www.5442.com/meinv/2\d+/\d+.html)" target=')

    ablum_list = re.findall(szurlre, html);

    return ablum_list

#获得相册的名称

def get_ablum_name(html):

    szurlre = re.compile(r'<title>(\S+)</title>')

    ablum_name = re.findall(szurlre, html)

    return ablum_name[0]

#获得单页的图片

def get_photo(html, dir, photo_num):

    imgre = re.compile(r'点击图片进入下一页\' ><img src=\'(http://\S+.jpg)\' alt=')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        try:

            socket.setdefaulttimeout(2)

            urllib.urlretrieve(imgurl, './photo//%s//%05d.jpg'%(dir, photo_num))

            print("正在下载第%s张图片"%photo_num)

            photo_num = photo_num + 1

        except:

            continue

    return photo_num

url = "http://www.5442.com/meinv/"

baseurl = "http://www.5442.com"

html = get_html(url)

page_num = get_page_num(html)

print ("一共有%s页"%page_num)

ablum_num = 0

try:

    os.mkdir("./photo")

except:

    print "目录已经存在"

for i in range(1, page_num):

    if i != 1:

        url = "http://www.5442.com/meinv/list_1_%s.html"%i

        try:

            html = get_html(url)

        except:

            continue

    ablum_list = get_ablum_list(html)

    for ablum_url in ablum_list:

        ablum_num = ablum_num + 1

        try:

            photo_html = get_html(ablum_url)

        except:

            continue

        url_part = ablum_url[0:-5]

        photo_page_num = get_page_num2(photo_html)

        ablum_name = "编程资料" + "%05d" % ablum_num

        print ablum_name

        photo_num = 0

        #创建相册对应的目录

        ui_ablum_name = ablum_name

        try:

            os.mkdir("./photo/"+ui_ablum_name)

        except:

            continue

        for i in range(1, photo_page_num):

            if i != 1:

                ablum_url = url_part + "_%d"%i + ".html"

                try:

                  photo_html = get_html(ablum_url)

                except:

                  continue

            photo_num = get_photo(photo_html, ablum_name, photo_num)

运行效果:

保存目录

python爬虫学习-爬取某个网站上的所有图片的更多相关文章

初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
python爬虫学习---爬取微软必应翻译（中英互译）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:OSinooO 本人属于python新手,刚学习的 python爬虫基础 ...
Python爬虫：爬取某网站关键词对应商品ID，且存入DB2数据库
公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID. 其中还学会了用Python操作DB2数据库.Python发送邮件.写日志文件.处理浏览器访问限制. #!/usr/bin/python# ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

Unity 3D学习之《Unity 3D 手机游戏开发》1
P10: 设置断点步骤02,在Project窗口右键(是在下图中的红色区域,点右键)选择[Sync Mono Develop Project],打开MonoDevelop编辑器 P11: " ...
Magento 新增字段的值读写丢失原因
某实体新增字段handreturn_status,欲操作之: $order_info = Mage::getModel('sales/order')->load($order_id); //se ...
找出只含有2,3,5因子构成的数的第N个
https://leetcode.com/problems/ugly-number-ii/ 刚开始,一看题以为用刷选法,但是当数据量大时明显不行.然后感觉用含2,3,5因子的个数当做进制来处理还是不行 ...
c/c++优化结构控制
一.表达式优化--使用替换程序中的乘除法 c/c++中的加减运算效率远远高于乘除运算,由于移位指令的执行速度和乘除法差不多,所以可以使用移位的方式来替换程序中的乘除法.一个数向右移一位,等于该数乘以2 ...
Lattice FPGA 板子调试笔记
最近在调试LATTICE FPGA 做的视频板子,颇不顺利,所以记录下来作为以后的参考: 1.FPGA的IO口不是所有的都是双向的,有些有特殊作用的是单向的. 在查阅 LatticeECP3-17E ...
【Java EE 学习 49 上】【Spring学习第一天】【基本配置】
一.HelloWorld 需要的jar文件(以2.5.5为例):spring.jar,common-logging.jar 1.新建类com.kdyzm.spring.helloworld.Hello ...
xml dtd 定义元素
ANY 如果需要定义某个元素的值可以是任意类型,可采用如下语法 <!ELEMENT 元素名 ANY> DTD必须定义XML文档中允许出现的所有元素,所以下面这样是不行的,因为<hel ...
ASP.NET Web API 提升性能的方法实践
ASP.NET Web API 是非常棒的技术.编写 Web API 十分容易,以致于很多开发者没有在应用程序结构设计上花时间来获得很好的执行性能. 在本文中,我将介绍8项提高 ASP.NET Web ...
js冒泡排序
今天面试了家公司,最后要写个js的简单数组排序,很久都写不出来,好尴尬,随着语言的发展,这些简单方法越来越不被重视了... <html> <head> <script t ...
【Oracle】去除表中重复的数据
删除表重复数据 (t1表中有重复数据)1.使用distinct create table t2 as select * from t1;create table tmp_t2 as select di ...

python爬虫学习-爬取某个网站上的所有图片

python爬虫学习-爬取某个网站上的所有图片的更多相关文章

随机推荐

热门专题