async 异步抓取花瓣网高清大图 30s爬取500张

废话不多说，直接上代码，不懂得看注释

先安装 pip install aiohttp

 "异步抓取花瓣网图片"

 # pip install aiohttp

 import requests

 import aiohttp

 import asyncio

 import time

 import os

 headers = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36',

     "X-Request": "JSON",

     "Accept": "application/json",

     "X-Requested-With": "XMLHttpRequest"

 }

 def get_image_urls():

     """获取图片链接"""

     print('开始获取图片链接，请耐心等待......')

     image_id = 2551285279

     for page in range(1,26):

         url = "https://huaban.com/boards/41743806/?jzwfs8ej&max="+ str(image_id) +"&limit=20&wfl=1"

         response = requests.get(url,headers=headers).json()

         pins = response['board']['pins']

         end_pins_id = pins[-1]['pin_id']

         for i in pins:

             key = i['file']['key']

             urls.append('http://hbimg.huabanimg.com/'+key)

         image_id = end_pins_id  # 下一页url中需要的参数

 #特殊的函數：该函数调用后,函数内部的程序语句不会被执行,但是该函数调用会返回一个协程对象

 async def get_audio_data(url):

   #使用aiohttp进行请求发送

     #实例化了一个发送网络请求的对象

     async with aiohttp.ClientSession() as s:

       #该函数内部的异步操作必须使用await进行修饰

         async with await s.get(url=url,headers=headers) as response:

             audio_data = await response.read()  #read()返回的是二进制形式的响应数据

             return {'data':audio_data,'url':url}

 #任务对象的回调函数,进行数据的持久化存储

 def saveData(task):

     dic_obj = task.result()

     name = dic_obj['url'].split('/')[-1]

     data = dic_obj['data']

     image_dir = 'images'

     if not os.path.exists(image_dir):

         os.mkdir(image_dir)

     with open(os.path.join(image_dir,name) + '.jpg','wb') as fp:

         fp.write(data)

     print(name+'下载完毕!')

 if __name__ == '__main__':

     start_time = time.clock()

     urls = []

     tasks = []

     get_image_urls()

     for url in urls:

         #调用该特殊函数,让其返回一个协程对象

         c = get_audio_data(url)

         #将协程对象封装到任务对象中

         task = asyncio.ensure_future(c)

         # 给任务对象绑定回调函数

         task.add_done_callback(saveData)

         #将任务对象添加到列表中

         tasks.append(task)

     #创建一个事件循环对象

     loop = asyncio.get_event_loop()

     #将任务对象列表注册到事件循环对象中,并且开启事件循环

     loop.run_until_complete(asyncio.wait(tasks))

     end_time = time.clock()

     print('抓取{}张图片，共计用时{}秒'.format(len(tasks),end_time-start_time))

注：window最大线程数 512，所以任务数不要超过这个值，否则抛出异常

async 异步抓取花瓣网高清大图 30s爬取500张的更多相关文章

Python抓取花瓣网高清美图
一:前言嘀嘀嘀,上车请刷卡.昨天看到了不错的图片分享网——花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文件夹命名分类保存到电脑中. ...
python爬虫实战（二）--------千图网高清图
相关代码已经修改调试----2017-3-21 实现:千图网上高清图片的爬取程序运行20小时,爬取大约162000张图片,一共49G,存入百度云.链接:http://pan.baidu.com/s/ ...
使用nodejs爬取和讯网高管增减持数据
为了抓取和讯网高管增减持的数据,首先得分析一下数据的来源: 网址: http://stockdata.stock.hexun.com/ggzjc/history.shtml 使用chrome开发者工具 ...
GoLang爬取花瓣网美女图片
由于之前一直想爬取花瓣网(http://huaban.com/partner/uc/aimeinv/pins/) 的图片,又迫于没时间,所以拖了很久. 鉴于最近在学go语言,就刚好用这个练手了. 预览 ...
WPF 异步加载高清大图
不管什么东西,但凡太大了,总是让人又爱又恨啊!(很有道理的样子,大家鼓掌└(￣￣└)(┘￣￣)┘) 猿:老板,现在这社会啊,真是浮躁啊,之前还是什么1080P,然后就到了2K,现在又到了4K……他 ...
Python爬虫-爬取科比职业生涯高清图集
前面学习了Python爬取豆瓣电影Top250的数据,爬取的信息是电影信息的文本信息,但是在互联网上流行的图片才有更大的吸引力,本篇我们来使用python爬取网页上的图片并保存在本地硬盘上,很兴奋吧, ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
python妹子图爬虫5千张高清大图突破防盗链福利5千张福利高清大图
meizitu-spider python通用爬虫-绕过防盗链爬取妹子图这是一只小巧方便,强大的爬虫,由python编写所需的库有 requests BeautifulSoup os lxml 伪 ...
IOS 多个UIImageView 加载高清大图时内存管理
IOS 多个UIImageView 加载高清大图时内存管理时间:2014-08-27 10:47 浏览:59人当我们在某一个View多个UIImageView,且UIImageView都显示的是 ...

随机推荐

客户端框架-MVP
MVP Model-View-Presenter MVP是把MVC中的Controller换成了Presenter(呈现),目的就是为了完全切断View跟Model之间的联系,由Presenter充当 ...
php的switch函数
PHP Switch 语句 PHP If...Else PHP While 循环 switch 语句用于基于不同条件执行不同动作. Switch 语句如果您希望有选择地执行若干代码块之一,请使用 S ...
php的if函数
条件语句用于基于不同条件执行不同的动作 PHP 条件语句在您编写代码时,经常会希望为不同的决定执行不同的动作.您可以在代码中使用条件语句来实现这一点. 在 PHP 中,我们可以使用以下条件语句: i ...
oracle判断一个字段为空
比如 insert into table a (a1,b1)values("a1",''); 对于这种情况,因为表里存的是'',其实是没有内容的,要查询这个字段,不能直接使用 se ...
数据库事务ACID与隔离级别
如果一个数据库声称支持事务的操作,那么该数据库必须要具备以下四个特性: 原子性(Atomicity) 原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,这和前面两篇博客介绍事务的功能是一样的 ...
Linux系统下MySql表名大小写敏感问题
mysql是通过lower_case_table_names变量来处理大小写问题的. 首先查询该变量 mysql在Linux下数据库名.表名.列名.表别名大小写规则如下: 1.数据库名与表名严格区分大 ...
sql server关键字大全
保留关键字 Microsoft® SQL Server™ 2000 使用保留关键字定义.操作和访问数据库.保留关键字是 SQL Server 使用的 Transact-SQL 语言语法的一部分,用于分 ...
LeetCode 39. 组合总和（Combination Sum）
题目描述给定一个无重复元素的数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合. candidates 中的数字可以无限 ...
ffmpeg剪切视频
测试的时候需要用到视频,原片太大了,就剪切几分钟来测试 ffmpeg -i input.mp4 -ss 0 -t 300 -acodec copy -vcodec copy -scodec copy ...
一、基础篇--1.2Java集合-Arraylist 与 LinkedList 区别
Arraylist 与 LinkedList 区别结构上的区别 ArrayList底层实现基于动态数组,LinkedList底层实现基于双向链表. 性能上区别 ArrayList查询快,增删慢 ...

async 异步抓取 花瓣网高清大图 30s爬取500张

async 异步抓取 花瓣网高清大图 30s爬取500张的更多相关文章

随机推荐

热门专题

async 异步抓取花瓣网高清大图 30s爬取500张

async 异步抓取花瓣网高清大图 30s爬取500张的更多相关文章