Python使用asyncio+aiohttp异步爬取猫眼电影专业版

asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库，可以很好地解决python中高并发的问题，入门学习可以参考官方文档

并发访问能极大的提高爬虫的性能，但是requests访问网页是阻塞的，无法并发，所以我们需要一个更牛逼的库 aiohttp ，它的用法与requests相似，可以看成是异步版的requests，下面通过实战爬取猫眼电影专业版来熟悉它们的使用：

1. 分析

分析网页源代码发现猫眼专业版是一个动态网页，其中的数据都是后台传送的，打开F12调试工具，再刷新网页选择XHR后发现第一条就是后台发来的电影数据，由此得到接口 https://box.maoyan.com/promovie/api/box/second.json?beginDate=日期

在这里插入图片描述

2. 异步爬取

创建20个任务来并发爬取20天的电影信息并写入csv文件，同时计算一下耗费的时间

import asyncio

from aiohttp import ClientSession

import aiohttp

import time

import csv

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '

                             'AppleWebKit/537.36 (KHTML, like Gecko) '

                             'Chrome/67.0.3396.99 Safari/537.36'}

# 协程函数，完成一个无阻塞的任务

async def get_one_page(url):

	try:

		conn = aiohttp.TCPConnector(verify_ssl=False)  # 防止ssl报错

		async with aiohttp.ClientSession(connector=conn) as session:  # 创建session

			async with session.get(url, headers=headers) as r:

				# 返回解析为字典的电影数据

				return  await r.json()

	except Exception as e:

		print('请求异常： ' + str(e))

		return {}

# 解析函数，提取每一条内容并写入csv文件

def parse_one_page(movie_dict, writer):

	try:

		movie_list = movie_dict['data']['list']

		for movie in movie_list:

			movie_name = movie['movieName']

			release = movie['releaseInfo']

			sum_box = movie['sumBoxInfo']

			box_info = movie['boxInfo']

			box_rate = movie['boxRate']

			show_info = movie['showInfo']

			show_rate = movie['showRate']

			avg_show_view = movie['avgShowView']

			avg_seat_view = movie['avgSeatView']

			writer.writerow([movie_name, release, sum_box, box_info, box_rate,

			                show_info, show_rate, avg_show_view, avg_seat_view])

		return('写入成功')

	except Exception as e:

		return('解析异常： ' + str(e))

# 并发爬取

async def main():

    # 待访问的20个URL链接

    urls = ['https://box.maoyan.com/promovie/api/box/second.json?beginDate=201904{}{}'.format(i, j) for i in range(1, 3) for j in range(10)]

    # 任务列表

    tasks = [get_one_page(url) for url in urls]

    # 并发执行并保存每一个任务的返回结果

    results = await asyncio.gather(*tasks)

    # 处理每一个结果

    with open('pro_info.csv', 'w') as f:

        writer = csv.writer(f)

        for result in results:

            print(parse_one_page(result, writer))

if __name__ == "__main__":

	start = time.time()

	# asyncio.run(main())

	# python3.7之前的写法

	loop = asyncio.get_event_loop()

	loop.run_until_complete(main())

	loop.close()

	print(time.time()-start)

3. 对比同步爬取

import requests

import csv

import time

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '

                             'AppleWebKit/537.36 (KHTML, like Gecko) '

                             'Chrome/67.0.3396.99 Safari/537.36'}

def get_one_page(url):

    try:

        r = requests.get(url, headers=headers)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.json()

    except Exception as e:

        print('请求异常： ' + e)

        return {}

def parse_one_page(movie_dict, writer):

    try:

        movie_list = movie_dict['data']['list']

        for movie in movie_list:

            movie_name = movie['movieName']

            release = movie['releaseInfo']

            sum_box = movie['sumBoxInfo']

            box_info = movie['boxInfo']

            box_rate = movie['boxRate']

            show_info = movie['showInfo']

            show_rate = movie['showRate']

            avg_show_view = movie['avgShowView']

            avg_seat_view = movie['avgSeatView']

            writer.writerow([movie_name, release, sum_box, box_info, box_rate,

                            show_info, show_rate, avg_show_view, avg_seat_view])

        print('写入成功')

    except Exception as e:

        print('解析异常： ' + e)

def main():

    # 待访问的20个URL链接

    urls = ['https://box.maoyan.com/promovie/api/box/second.json?beginDate=201903{}{}'.format(i, j) for i in range(1, 3) for j in  range(10)]

    with open('out/pro_info.csv', 'w') as f:

        writer = csv.writer(f)

        for url in urls:

            # 逐一处理

            movie_dict = get_one_page(url)

            parse_one_page(movie_dict, writer)

if __name__ == '__main__':

    a = time.time()

    main()

    print(time.time() - a)

在这里插入图片描述

可以看到使用asyncio+aiohttp的异步爬取方式要比简单的requests同步爬取快上不少，尤其是爬取大量网页的时候，这种差距会非常明显。

Python使用asyncio+aiohttp异步爬取猫眼电影专业版的更多相关文章

python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
python应用-爬取猫眼电影top100
import requests import re import json import time from requests.exceptions import RequestException d ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...

随机推荐

Redis list（列表）
Redis列表是简单的字符串列表,列表是有序的,列表中的元素可以重复. 可以添加一个元素到列表的头部(左边)或者尾部(右边) 一个列表最多可以包含 232 - 1 个元素 (40多亿). 1.lpus ...
for循环操作DOM缓存节点长度？
不管是在网上,还是在翻看书籍的时候,都能看到在使用for循环操作DOM节点时要做数节点长度的缓存,以确保性能最优化! 这二种写法格式大致是下面这样的 /*节点集合*/ var domarr=docum ...
mui实现图片更换（暂未上传）
页面中有默认的图片,触发type为file的input时,更换图片,这个是mui移动端的项目,算了,不多说,开码首先,先在html页面中设置样式,样式我就不给了,贴个布局 <div class ...
centos下无法直接删除乱码文件及文件夹解决方案
不知道怎么回事今天在系统上发现有一个名字为“\”的文件,使用rm -f \ 无法删除,最后没办法只能使用文件的inode号进行删除,以下是相关步骤: [oracle@prod-db ~]$ ls -i ...
SqlServer中生成一串连续数字
在SQLServer中一串连续数字,如1,2,3,4,5,....或者 1 2 3 4 5 没有现成方法,网上都用通用表表达式递归生成.今天想到一个还算简单的方法,记录下来: select row_n ...
C#注册表操作类（完整版）
下面贴出自己用C#写的注册表操作类,欢迎大家拍砖! 1.注册表基项静态域 1 /// <summary> 2 /// 注册表基项静态域 3 /// 4 /// 主要包括: 5 /// 1. ...
codeforces Gym 100286J Javanese Cryptoanalysis （二染色）
每一单词相邻两个字母,不能同时为元音或者辅音... 各种姿势都可以过:7个for,dp,黑白染色,dfs,并查集.... 最主要的思路就是相邻字母连边,把元音和辅音看成两个集合,那么有连边的两个字母一 ...
Memcached笔记之分布式算法
1.根据余数进行分散:离散度高,但是增加或者移除服务器的时候,缓存充足的代价非常大.添加服务器后,余数就会产生巨变,这样就无法获取与保存时相同的服务器,从而音像缓存的命中率. 2.Consistent ...
Problem Y: 哪一天，哪一秒？
Problem Y: 哪一天,哪一秒? Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 337 Solved: 196[Submit][Status][ ...
jsp页面之间传值以及如何取出url的参数
写项目时往往要写多个页面,而多个jsp之间传值有时是必要的,这时可以用到如下方法: 而在另一个页面取值可以用:${param.xxx} 此处的xxx就是要传递的值