【python 3.6】从网站抓图并存放到本地路径

#!/usr/bin/python

# -*- coding: UTF-8 -*-

_author_ = 'BH8ANK'

import urllib.request

import re

import os

import time

#os.rmdir("D:/images")

#1，打开页面，读取图片张数,抓html

wangzhi = "https://www.zhihu.com/question/43551423"

keywords = ".jpg"

def get_html(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    return html

content = str(get_html(wangzhi))

a = content.count(keywords)

#print(content)

#print("此页面有%d张图" %a)

#2，匹配图片文件,抓jpg

def get_image(html):

    t = r'src="(.+?\.jpg)"' #正则表达式，匹配的是r后面的内容，这部分内容来自于网页的html

    img = re.compile(t)#将正则表达式翻译成它的对象

    html1 = html.decode('utf-8')

    # html用decode('utf-8')进行解码，由bytes变成string。

    # py3的urlopen返回的不是string是bytes，如果没有这一步，就会报下面的错

    #    return _compile(pattern, flags).findall(string)

    #TypeError: cannot use a string pattern on a bytes-like object

    img_list = re.findall(img,html1)#在html中找到所有符合正则表达式的图片，存入列表list

    # try:                           #要么用异常处理方式，要么用if not判断路径是否存在

    #     os.mkdir("D:/images")

    # except FileExistsError:

    #     pass

    if not os.path.exists("D:/images"):#不存在即创建

        os.mkdir("D:/images")

    print("\n\nCreat Success\n")

    # input()

    n = 1                              #此处要重点理解的是循环变量n，这个n一边控制循环，一边给抓到的图命名

    for html in img_list:

        urllib.request.urlretrieve(html, 'D:/images/%s.jpg' %n)

        print("抓到第%3d张图"  %n,end="") #如果写为%03d，则不满3位，前面加0，如果写为%3d，则右对齐，前面不加0

        '''

        上面print中用到了end=''，表示后面的打印不换行

        下面的模块负责显示抓到第几张图片时，打印进度条

        '''

        N=0.05#每隔0.05秒打印一个=

        k=1#循环控制变量，一共打印20个=，最后打印Done

        while k < 20:

            print("=", end='', flush=True)

            time.sleep(N)

            k += 1

        print("Done")

        n += 1

    print("\n一共抓到%d张图"   %(n - 1))

    return img_list

    # for img_url in img_list:

    #     urllib.urlretrieve(img_url, 'D:/tmp/%s.jpg' % n)

    #     return img_list

# c = get_image(get_html(wangzhi))

# d = c.decode('utf-8')

#

# print(d)

if __name__ == "__main__":

    daima = get_html(wangzhi)

    print(daima)#此为目标网页的html代码

# input()

    get_image(daima)#从html中取出匹配的图片，并存放

代码部分本身比较简单，重点需要理解的部分是re.compile和re.findall.

容易出错的地方：

1，下面两行，为什么要decode呢

    html1 = html.decode('utf-8')

    img_list = re.findall(img,html1)

如果不decode，就会报错

原因是：

TypeError: can't use a string pattern on a bytes-like object.

html用decode('utf-8')进行解码，由bytes变成string。

py3的urlopen返回的不是string是bytes，这一点和py2有差异。

2，下面这句的意思是筛选【src="(.+?\.jpg)"】，这部分内容是通过查看网页html来确定的

  t = r'src="(.+?\.jpg)"'

3，创建文件夹时，需要判断当前路径下，是否有这个文件夹，可以采用两种方式，if not 或者try except

【python 3.6】从网站抓图并存放到本地路径的更多相关文章

Python Locust对指定网站“一键压测”
[本文出自天外归云的博客园] 前篇前篇:Python Locust性能测试框架实践本篇承上——归纳过程在前篇的基础上,我们可以利用Locust性能测试框架编写python脚本对指定网站或者接口 ...
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129 项目实战之 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...
python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...
python+splinter实现12306网站刷票并自动购票流程
python+splinter实现12306网站刷票并自动购票流程通过python+splinter,实现在12306网站刷票并自动购票流程(无法自动识别验证码). 此类程序只是提高了12306网站 ...
[转载]python实现带验证码网站的自动登陆
原文地址:python实现带验证码网站的自动登陆作者:TERRY-V 早听说用python做网络爬虫非常方便,正好这几天单位也有这样的需求,需要登陆XX网站下载部分文档,于是自己亲身试验了一番 ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
推荐一个学习python非常好的网站
推荐一个入门python非常好的网站(也可以学习JAVA)非常适合入门,不说多易于理解,也是比较亲民的0基础学习教程,还免费…… 网址:https://www.liaoxuefeng.com/(廖雪峰 ...

随机推荐

从C语言的volatile关键字，了解C#的volatile机制（转载）
C#中有一个关键字volatile,一直不太明白到底什么时候才用它,只知道在多线程操作同一个变量的时候要使用volatile关键字,下面看到了一篇C语言关于volatile关键字的介绍,写的很不错,其 ...
逍遥云天微信小程序开发之获取用户手机号码——使用简单php接口demo进行加密数据解密
后边要做一个微信小程序,并要能获取用户微信绑定的手机号码.而小程序开发文档上边提供的获取手机号码的接口(getPhoneNumber())返回的是密文,需要服务器端进行解密,但是官方提供的开发文档一如 ...
20181029noip模拟赛T1
1.借书 [问题描述] Dilhao一共有n本教科书,每本教科书都有一个难度值,他每次出题的时候都会从其中挑两本教科书作为借鉴,如果这两本书的难度相差越大,Dilhao出的题就会越复杂,也就是说,一道 ...
CodeChef March Lunchtime 2018 div2
地址https://www.codechef.com/LTIME58B?order=desc&sortBy=successful_submissions 简单做了一下,前三题比较水,第四题应该 ...
linux系统基础之---RAID（基于centos7.4 1708）
php源码建博客3--区分平台的MVC结构
主要: 模型单例工厂目录结构优化区分平台(前台,后台....) --------------文件结构:-------------------------------------- blog├─Ap ...
A1050
输入两个字符串,将第一个字符串中包含的第二个字符串的字符去掉(包括空格),然后输出. gets()不能用了,我混搭了string和length(),不用纠结长度还是很好的. 第二个字符串所在HashT ...
STM32_2 简单分析startup函数
;******************** (C) COPYRIGHT STMicroelectronics ******************** ;* File Name : startup_s ...
C#LINQ集合操作
LINQ的集合运算 List<int> lstOne = new List<int>() { 1, 55, 223, 25 }; List<int> lstTwo ...
分布式存储系统Kudu与HBase的简要分析与对比
本文来自网易云社区作者:闽涛背景 Cloudera在2016年发布了新型的分布式存储系统——kudu,kudu目前也是apache下面的开源项目.Hadoop生态圈中的技术繁多,HDFS作为底层数 ...

【python 3.6】从网站抓图并存放到本地路径

【python 3.6】从网站抓图并存放到本地路径的更多相关文章

随机推荐

热门专题