python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)

# -*- coding: utf-8 -*-

"""

Created on Mon Mar 21 11:04:54 2017

@author: sl

"""

import requests

import time

#################################################################################

################先找到对应的爬取验证码连接，例如我要爬取车违章信息#################################

###############找到车违章链接http://smart.gzeis.edu.cn:8081/Content/AuthCode.aspx#####################

#################根据网页源码找到对应的登录链接https://www.stc.gov.cn/szwsjj_web/jsp/xxcx/jdcjtwfcx.jsp#######

################根据网页源码找到对应的验证码链接https://www.stc.gov.cn:443/szwsjj_web/ImgServlet.action?######

#################################################################################

def downloads_pic(pic_name):

#url='http://smart.gzeis.edu.cn:8081/Content/AuthCode.aspx'

url='https://www.stc.gov.cn/szwsjj_web/ImgServlet.action?'

res=requests.get(url,stream=True) ####在罕见的情况下你可能想获取来自服务器的原始套接字响应，那么你可以访问 r.raw如果你确实想这么干，那请你确保在初始请求中设置了stream=True

print res

with open(r'G:\DownloadsVerificationCode\%s.jpg'%(pic_name),'wb') as f:

print res.iter_content(chunk_size=1024)

for chunk in res.iter_content(chunk_size=1024): ####使用Response.iter_content将会处理大量你直接使用Response.raw不得不处理的.当流下载时，上面是优先推荐的获取内容方式

print chunk

if chunk: ###过滤下保持活跃的新块

f.write(chunk)

f.flush() #方法是用来刷新缓冲区的，即将缓冲区中的数据立刻写入文件，同时清空缓冲区，不需要是被动的等待输出缓冲区写入

f.close()

if __name__=='__main__':

for i in range(300):

pic_name=int(time.time()*1000000) #返回当前时间的时间戳（1970纪元后经过的浮点秒数）

downloads_pic(pic_name)

python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)的更多相关文章

python的N个小功能(找到符合要求的图片，重命名，改格式，缩放，进行随机分配)
########################################################################## 循环读取该目录下所有子目录和子文件 ####### ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...
（转）Python网络爬虫实战：世纪佳缘爬取近6万条数据
又是一年双十一了,不知道从什么时候开始,双十一从“光棍节”变成了“双十一购物狂欢节”,最后一个属于单身狗的节日也成功被攻陷,成为了情侣们送礼物秀恩爱的节日. 翻着安静到死寂的聊天列表,我忽然惊醒,不行 ...
Python之手把手教你用JS逆向爬取网易云40万+评论并用stylecloud炫酷词云进行情感分析
本文借鉴了@平胸小仙女的知乎回复 https://www.zhihu.com/question/36081767 写在前面: 文章有点长,操作有点复杂,需要代码的直接去文末即可.想要学习的需要有点耐心 ...
Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
Python 爬取qqmusic音乐url并批量下载
qqmusic上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫. 至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在ur ...
Python爬虫：用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
Python爬虫入门教程 2-100 妹子图网站爬取
妹子图网站爬取---前言从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们 ...

随机推荐

pycharm如何回到过去某个时间
在编写代码是,我们可能会写错代码,或者是误删某个文件,那么问题来了,如何回到过去的某个时间段,来弥补我们犯下的错呢? 1.如果是恢复删除的文件则右击之前文件所在的文件夹 2.右击文件夹的显示效果如图 ...
Springboot日记——核心编码篇
背景吐槽:想要让自己进阶一下,一定要有个可以拿出来秀的东西,所以要尝试写一个属于自己的网站或者平台.因此,我大概的看了一下springboot+Mybatis-plus+... 框架介绍通常 SSM ...
variadic templates & pass by const reference & member operator [] in const map & gcc sucks
/// bugs code with comments #include <iostream> #include <memory> #include <unordered ...
HTML文件转Word文件格式
这是我需要转换的HTML文件第一步~ 使用我们的福昕阅读器将我们.html文件打开,如下图第二步: 点击“文件”——“另存为”——选择一个你自己喜欢的位置存放文件,此时的文件已经被转换成了.pdf ...
Ubuntu下载磁力链接，torrent，迅雷链接
用ubuntu下载电影:磁力链接,torrent,迅雷链接需要软件:Ktorent, Amule 安装软件: sudo apt-get install ktorrent sudo apt-get i ...
HPUX系统启动后主机名为unknown的解决办法
HPUX系统启动完成后,主机名为unknown,查看/etc/rc.log出现如下报错: unknown:[/]grep -i error /etc/rc.log /sbin/rc1.d/S320 ...
从Web抓取信息
来源:python编程快速上手——Al Sweigart webbrowser:是 Python 自带的,打开浏览器获取指定页面. requests:从因特网上下载文件和网页. Beautiful S ...
反爬虫和抗DDOS攻击技术实践
导语企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术.利用人工智能进行人机识别.图像识别码.频率访问控制.利用无头浏览器PhantomJS.Selenium 进行网页抓取等相关技术不在本文讨 ...
Erlang数据类型的表示和实现（2）——Eterm 和立即数
Erlang 数据类型的内部表示和实现 Erlang 中的变量在绑定之前是自由的,非绑定变量可以绑定一次任意类型的数据.为了支持这种类型系统,Erlang 虚拟机采用的实现方法是用一个带有标签的机器字 ...
chown命令详情
基础命令学习目录首页原文链接:https://www.jb51.net/article/98255.htm chown将指定文件的拥有者改为指定的用户或组,用户可以是用户名或者用户ID:组可以是组名 ...

python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)

python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)的更多相关文章

随机推荐

热门专题