#!/usr/bin/python
# -*- coding: UTF-8 -*-
_author_ = 'BH8ANK' import urllib.request
import re
import os
import time #os.rmdir("D:/images") #1,打开页面,读取图片张数,抓html
wangzhi = "https://www.zhihu.com/question/43551423"
keywords = ".jpg" def get_html(url):
page = urllib.request.urlopen(url)
html = page.read()
return html content = str(get_html(wangzhi))
a = content.count(keywords) #print(content)
#print("此页面有%d张图" %a) #2,匹配图片文件,抓jpg
def get_image(html):
t = r'src="(.+?\.jpg)"' #正则表达式,匹配的是r后面的内容,这部分内容来自于网页的html
img = re.compile(t)#将正则表达式翻译成它的对象
html1 = html.decode('utf-8')
# html用decode('utf-8')进行解码,由bytes变成string。
# py3的urlopen返回的不是string是bytes,如果没有这一步,就会报下面的错
# return _compile(pattern, flags).findall(string)
#TypeError: cannot use a string pattern on a bytes-like object img_list = re.findall(img,html1)#在html中找到所有符合正则表达式的图片,存入列表list
# try: #要么用异常处理方式,要么用if not判断路径是否存在
# os.mkdir("D:/images")
# except FileExistsError:
# pass
if not os.path.exists("D:/images"):#不存在即创建
os.mkdir("D:/images")
print("\n\nCreat Success\n")
# input()
n = 1 #此处要重点理解的是循环变量n,这个n一边控制循环,一边给抓到的图命名
for html in img_list:
urllib.request.urlretrieve(html, 'D:/images/%s.jpg' %n)
print("抓到第%3d张图" %n,end="") #如果写为%03d,则不满3位,前面加0,如果写为%3d,则右对齐,前面不加0
'''
上面print中用到了end='',表示后面的打印不换行
下面的模块负责显示抓到第几张图片时,打印进度条
'''
N=0.05#每隔0.05秒打印一个=
k=1#循环控制变量,一共打印20个=,最后打印Done
while k < 20:
print("=", end='', flush=True)
time.sleep(N)
k += 1
print("Done")
n += 1
print("\n一共抓到%d张图" %(n - 1))
return img_list
# for img_url in img_list:
# urllib.urlretrieve(img_url, 'D:/tmp/%s.jpg' % n)
# return img_list
# c = get_image(get_html(wangzhi))
# d = c.decode('utf-8')
#
# print(d) if __name__ == "__main__":
daima = get_html(wangzhi)
print(daima)#此为目标网页的html代码
# input()
get_image(daima)#从html中取出匹配的图片,并存放

代码部分本身比较简单,重点需要理解的部分是re.compile和re.findall.

容易出错的地方:

1,下面两行,为什么要decode呢

    html1 = html.decode('utf-8')
img_list = re.findall(img,html1)

如果不decode,就会报错

原因是:

TypeError: can't use a string pattern on a bytes-like object.

html用decode('utf-8')进行解码,由bytes变成string。

py3的urlopen返回的不是string是bytes,这一点和py2有差异。

2,下面这句的意思是筛选 【src="(.+?\.jpg)"】,这部分内容是通过查看网页html来确定的

  t = r'src="(.+?\.jpg)"' 

3,创建文件夹时,需要判断当前路径下,是否有这个文件夹,可以采用两种方式,if not 或者try except

【python 3.6】从网站抓图并存放到本地路径的更多相关文章

  1. Python Locust对指定网站“一键压测”

    [本文出自天外归云的博客园] 前篇 前篇:Python Locust性能测试框架实践 本篇 承上——归纳过程 在前篇的基础上,我们可以利用Locust性能测试框架编写python脚本对指定网站或者接口 ...

  2. Python之路,Day22 - 网站用户访问质量分析监测分析项目开发

    Python之路,Day22 - 网站用户访问质量分析监测分析项目开发   做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129  项目实战之 ...

  3. python爬虫之小说网站--下载小说(正则表达式)

    python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...

  4. python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

    python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...

  5. python爬虫之12306网站--火车票信息查询

    python爬虫之12306网站--火车票信息查询 思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...

  6. python+splinter实现12306网站刷票并自动购票流程

    python+splinter实现12306网站刷票并自动购票流程 通过python+splinter,实现在12306网站刷票并自动购票流程(无法自动识别验证码). 此类程序只是提高了12306网站 ...

  7. [转载]python实现带验证码网站的自动登陆

        原文地址:python实现带验证码网站的自动登陆作者:TERRY-V 早听说用python做网络爬虫非常方便,正好这几天单位也有这样的需求,需要登陆XX网站下载部分文档,于是自己亲身试验了一番 ...

  8. python爬取某个网站的图片并保存到本地

    python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...

  9. 推荐一个学习python非常好的网站

    推荐一个入门python非常好的网站(也可以学习JAVA)非常适合入门,不说多易于理解,也是比较亲民的0基础学习教程,还免费…… 网址:https://www.liaoxuefeng.com/(廖雪峰 ...

随机推荐

  1. JasperReport4.6生成PDF中文

    Web项目中PDF显示中文 本人无奈使用JasperReport4.6,因为这本书(好像也是唯一的一本国内的介绍JasperReport的书), 选择"文件"→New命令,弹出一个 ...

  2. python函数调用时传参方式

    位置参数 位置参数需与形参一一对应 def test(a,b) #a,b就是位置参数 print(a) print(b) test(1,2)   关键字参数 与形参顺序无关 def test(x,y) ...

  3. QT 防止FTP 上传软件在断连处 Crash

    前段时间发现项目中的上传FTP软件有可能会在从服务器申请断连时Crash, 所以加了一个Timer. 由于项目代码行数过大, 此处上传部分代码片段. timeoutTimer = new QTimer ...

  4. ABAP术语-qRFC-Monitor

    qRFC-Monitor 原文:http://www.cnblogs.com/qiangsheng/archive/2008/03/10/1098543.html Central monitoring ...

  5. (Linux学习笔记一:压缩)[20180209]

    学习笔记一:压缩 2015年2月5日 上午 10:23 压缩命令 压缩文件的扩展名大多是*.tar.*.tar.gz.*.tgz.*.gz.*.Z.*.bz2 常见的压缩命令gzip与bzip2,其中 ...

  6. PPTP

    一: VPN企业应用分类 1:远程访问VPN服务 员工个人电脑通过远程拨号到企业办公网络,如公司的OA系统. 运维人员远程拨号到DC机房,远程维护服务器. 2:企业内部网络之间VPN服务 公司分支机构 ...

  7. MySQL---下载安装、数据库基本操作

    1.下载安装 1.1 下载:  http://dev.mysql.com/downloads/mysql/ 1.2 解压 1.3 初始化 cd c:\mysql-5.7.16-winx64\bin ( ...

  8. 2.1 摄像头V4L2驱动框架分析

    学习目标:学习V4L2(V4L2:vidio for linux version 2)摄像头驱动框架,分析vivi.c(虚拟视频硬件相关)驱动源码程序,总结V4L2硬件相关的驱动的步骤:  一.V4L ...

  9. ruby中的respond to ?用法

    今天写脚本,遇到了这个函数,遂搜索及阅读相关代码,整理如下: respond_to 是判断是否是某个类型的方法,比如: ar = "ss" p ar.respond_to?(:to ...

  10. VIM Commands

    Vim Commands Commands in NORMAL modes Motions small granular: move by direction k h l j mid granular ...