刚学到爬虫识别验证码,所以自己建一个获取验证码的类,感兴趣的道友,可以看看,代码如下:

import requests
import time
import os
import re class Pictures:
"""docstring for Pictures"""
def __init__(self, url, request=None, file_dir=None, headers=None):
self.url = url
if not request:
self.requests = requests.session()
else:
self.requests = request
if not file_dir:
self.image_dir = './image/'
else:
self.image_dir = file_dir
if not headers:
self.headers = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip,deflate',
'Accept-Language':'zh-CN,zh;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36'
}
else:
self.headers = headers '''
保存图片
'''
def save_image(self, url=None):
if url is not None:
self.url = url
if not self.url:
return False
size = 0
number = 0
while size == 0:
try:
img_file = self.requests.get(url=self.url, headers=self.headers)
except self.requests.exceptions.RequestException as e:
raise e # 不是图片跳过
if not self.check_image(img_file.headers['Content-Type']):
return False
file_path = self.image_path(img_file.headers)
# 保存
with open(file_path, 'wb') as f:
f.write(img_file.content)
# 判断是否正确保存图片
size = os.path.getsize(file_path)
if size == 0:
os.remove(file_path)
# 如果该图片获取超过十次则跳过
number += 1
if number >= 10:
break
return file_path if (size > 0) else False '''
图片保存的路径
'''
def image_path(self, header):
# 文件夹
if not os.path.exists(self.image_dir):
os.makedirs(self.image_dir)
# 文件名
file_name = str(time.time()).replace('.', '')
# 文件后缀
suffix = self.img_type(header) return self.image_dir + file_name + suffix '''
获取图片后缀名
'''
def img_type(self,header):
# 获取文件属性
image_attr = header['Content-Type']
pattern = 'image/([a-zA-Z]+)'
suffix = re.findall(pattern, image_attr, re.IGNORECASE)
# 获取后缀
if not suffix:
suffix = 'png'
else:
suffix = suffix[0]
if re.search('jpeg', suffix, re.IGNORECASE):
suffix = 'jpg' return '.' + suffix # 检查是否为图片类型
def check_image(self, content_type):
if 'image' in content_type:
return True
else:
return False if __name__ == '__main__':
image = Pictures('http://my.cnki.net/elibregister/CheckCode.aspx')
for i in range(50):
image.save_image()

python批量下载验证码,用来做验证码处理的更多相关文章

  1. 用Python批量下载DACC的MODIS数据

    本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...

  2. 用python批量下载贴吧图片 附源代码

    环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片 使用方法: 1.安装python2.7,安装re模块, ...

  3. Python 批量下载BiliBili视频 打包成软件

    文章目录 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...

  4. python批量下载微信好友头像,微信头像批量下载

    #!/usr/bin/python #coding=utf8 # 自行下载微信模块 itchat 小和QQ496631085 import itchat,os itchat.auto_login() ...

  5. 用python批量下载图片

    一 写爬虫注意事项 网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...

  6. python——批量下载图片

    前言 批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片 例子 from html.parser import HTMLParser import urllib.r ...

  7. Python - 批量下载 IIS 共享的文件

    1.说明 用 IIS 以WEB形式发布了本地文件夹,提供文件下载,并设置了访问权限:默认下载需要点击一个一个的下载,web界面如下: 3.脚本 执行脚本批量下载文件,会在当前目录创建文件夹,并压缩该文 ...

  8. 用 Python 批量下载百度图片

    ​ 为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...

  9. python批量下载图片的三种方法

    一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: sele ...

随机推荐

  1. Linux--用户与用户组--03

    用户管理: 1.useradd 创建用户 -c 指定用户描述 -d 指定家目录 -g 指定主组 -G 指定附加组 附加组可以有多个 -s 指定shell程序 特殊的/sbin/nologin--> ...

  2. [转载]关于晶振ppm

    写得不错,小白的我学习了 原文地址:关于晶振ppm作者:thomaswangbj XXppm就是说频率的误差=(xx/百万)*振荡器的标称频率 eg1:120ppm,27M的晶振,频率的误差 = 12 ...

  3. git如何将本地文件关联到远程服务器

    很多时候,当我们关联git服务器的时候,本地都有可能会有一些开发的东西需要同步上去.那怎么样设置同步呢!跟我来做,简易配置: git本地关联远程项目:      第一步:选择目录           ...

  4. mysql merge引擎分表

    ---------------------创建表一--------------------------------------DROP TABLE a1;CREATE TABLE `a1` ( `id ...

  5. JVM---Java存储模型

    1.概述 1.1.Java语言规范  规定了  JVM要维护  内部线程类似顺序化语意(只要程序的最终结果  等同于  它在严格的顺序化环境中执行的结果): 2.平台的存储模型 2.1.现代的处理器. ...

  6. 【机器人M号】题解

    题目 题目描述 3030年,Macsy正在火星部署一批机器人. 第1秒,他把机器人1号运到了火星,机器人1号可以制造其他的机器人. 第2秒,机器人1号造出了第一个机器人--机器人2号. 第3秒,机器人 ...

  7. HTML5基础内容(二)

    HTML(HyperText Markup Language)超文本标记语言 一.HTML注释 元素就是标签,标签就是元素. 注释中的内容不会在页面中显示,但是可以在源码中看到. 可以通过编写注释来对 ...

  8. 1. Spring Security 框架简介

    官网:https://projects.spring.io/spring-security/Spring Security 是强大的,且容易定制的实现认证,与授权的基于 Spring 开发的框架.Sp ...

  9. PHP入门培训教程 php动态网页怎么转换成html

       当动态网页遇上搜索引擎 虽然动态网页相比于静态页面拥有许多优势,但它在搜索引擎的检索上却碰了个大钉子.无论任何一家网站,尤其是那些以营销为目的的企业网站,没有谁会希望自己的网页无法被搜索引擎检索 ...

  10. 如何使 C++ 的 StringBuilder 提升 4350% 的性能?

    介绍 经常出现客户端打电话抱怨说:你们的程序慢如蜗牛.你开始检查可能的疑点:文件IO,数据库访问速度,甚至查看web服务. 但是这些可能的疑点都很正常,一点问题都没有. 你使用最顺手的性能分析工具分析 ...