asyncio和aiohttp

asyncio官网

https://docs.python.org/zh-cn/3/library/asyncio-task.html

下面为伪代码：

import aiohttp

import asyncio


from bs4 import BeautifulSoup

import pandas as pd

# 将数据存入 li=[]或数据库

#获取页面

li=[]

async def fetch(url,session):

    async with session.get(url) as response:

        return await response.text

# 解析网页

async def parse(html):

    soup = BeautifulSoup(html,'lxml')

    # 获取网页中的畅销书

    book_list=soup.find('ul',class_='book_list')('li')

    for book in book_list:

        info =book.find_all('div')

        # 获取每本畅销书的排名，名称，评论数，作者，出版社

        rank = info[0].text[0:-1]

        name = info[2].text

        comments = info[3].text.split('条')[0]

        author = info[4].text

        date_and_publisher = info[5].text.split()

        publisher = date_and_publisher[1] if len(date_and_publisher) >= 2 else ''

        # 将每本畅销书的上述信息加入到table中

        li.append([rank, name, comments, author, publisher])

# 处理页面

async def download(url):

    async with aiohttp.ClientSession as session:

        # 获取页面

        html = await fetch(session, url)

        # 解析页面

        await parse(html)

# 全部网页urls

urls=[url1,url2,url3]

# 利用asycio 模块进行一步IO处理

loop = asyncio.get_event_loop()

# 异步获取任务

tasks= [asyncio.ensure_future(download(url)) for url in urls]

tasks = asyncio.gather(*tasks)

loop.run_until_complete(tasks)

# 将table转化为pandas中的DataFrame并保存为CSV格式的文件

df = pd.DataFrame(li, columns=['rank','name','comments','author','publisher'])

df.to_csv('E://douban/dangdang.csv',index=False)

asyncio和aiohttp的更多相关文章

异步：asyncio和aiohttp的一些应用（1）
1. asyncio 1.1asyncio/await 用法 async/await 是 python3.5中新加入的特性, 将异步从原来的yield 写法中解放出来,变得更加直观. 在3.5之前,如 ...
Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？
最近正在学习Python中的异步编程,看了一些博客后做了一些小测验:对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效 ...
异步：asyncio和aiohttp的一些应用（2）
转自:原文链接:http://www.cnblogs.com/ssyfj/p/9222342.html 1.aiohttp的简单使用(配合asyncio模块) import asyncio,aioht ...
asyncio 实现 aiohttp
#asyncio 没有提供http协议的接口 aiohttp import asyncio import socket from urllib.parse import urlparse async ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
aiohttp/asyncio 多次请求
#!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = "Daniel Altiparmak (sixfinger78@gmai ...
aiohttp/asyncio测试代理是否可用
#!/usr/bin/env python # encoding: utf-8 from proxyPool.db import RedisClient import asyncio import a ...
Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访 ...
异步协程asyncio+aiohttp
aiohttp中文文档 1. 前言在执行一些 IO 密集型任务的时候,程序常常会因为等待 IO 而阻塞.比如在网络爬虫中,如果我们使用 requests 库来进行请求的话,如果网站响应速度过慢,程序 ...

随机推荐

D. Chloe and pleasant prizes
D. Chloe and pleasant prizes time limit per test 2 seconds memory limit per test 256 megabytes input ...
Docker 与 K8S学习笔记（五）—— 容器的操作（上篇）
上一篇我们介绍了Dockerfile的基本编写方法,这一节我们来看看Docker容器的常用操作. 一.容器的运行方式容器有两种运行方式,即daemon形式运行与非daemon形式运行,通俗地讲就是长 ...
Jmeter环境变量配置你不得不知道的事情
在安装Jmeter的过程中大家肯定需要配置环境,但是为什么要配置JDK的环境变量呢?大家有没有好奇过,有没有仔细去像一下呢,其实在安装Jmeter前,大家应该都知道Jmeter是我们JAVA开发的,J ...
[数学]高数部分-Part VI 重积分
Part VI 重积分回到总目录 Part VI 重积分二重积分的普通对称性二重积分的轮换对称性(直角坐标系下) 二重积分直角坐标系下的积分方法二重积分极坐标系下的积分方法二重积分中值定理 ...
VUE3 之循环渲染
1. 概述老话说的好:单打独斗是不行的,要懂得合作. 言归正传,今天我们来聊聊 VUE3 的循环渲染. 2. 循环渲染 2.1 循环渲染数组 <body> <div id=&qu ...
高效位运算 __builtin_系列函数
•int __builtin_ffs (unsigned int x) 返回x的最后一位1的是从后向前第几位,比如7368(1110011001000)返回4. •int __builtin_clz ...
SpringBoot集成Actuator端点配置
1.说明 Actuator端点可以监控应用程序并与之交互. Spring Boot包括许多内置的端点, 比如health端点提供基本的应用程序运行状况信息, 并允许添加自定义端点. 可以控制每个单独的 ...
Ranger-Usersync安装
Ranger-Usersync安装, 配置数据源Unix,Usersync从Unix拉取Users/Groups的数据源, 对应的Ranger版本0.6.0. IP/机器名安装软件运行进程 zdh ...
Linux操作系统RedHat6.5安装
1.说明安装Linux操作系统Red Hat 6.5, 安装镜像为rhel-server-6.5-x86_64-dvd.iso. 2.开始安装在BIOS里设置成从光驱启动, 服务器上电后会加载光驱 ...
CSS基础结构伪类选择器 last-child、first-child和nth-of-type的使用方法
一.通过伪类选择器查找单个标签元素html结构 <div> <a herf='#'>导航1</a> <a herf='#'>导航2</a> ...

asyncio和aiohttp

asyncio官网

asyncio和aiohttp的更多相关文章

随机推荐

热门专题