aiohttp分流处理

# -*- coding: utf-8 -*-

# @Time : 2018/12/26 9:55 PM

# @Author : cxa

# @Software: PyCharm

import asyncio

import aiohttp

from db.mongohelper import save_data

import hashlib

import pathlib

import ujson

from logger.log import crawler

from utils import proxy_helper

from retrying import retry

from itertools import islice

try:

    import uvloop

    asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())

except ImportError:

    pass

sem = asyncio.Semaphore(1000)

url = "https://xxx.xxx.com"

@retry(stop_max_attempt_number=5)

def get_proxy():

    proxy = proxy_helper.get_proxy()

    host = proxy.get('ip')

    port = proxy.get('port')

    ip = f"http://{host}:{port}"

    return ip

async def fetch(item, session, proxy, retry_index=0):

    try:

        name = item

        sf = get_md5(name)

        data = {"kw": name, "signinfo": sf}

        async with session.post(url, data=data, proxy=proxy, verify_ssl=False) as req:

            res_status = req.status

            if res_status == 200:

                data = ujson.loads(await req.text())

                searchdata = data.get("searchResult")

                if searchdata:

                    await save_data(searchdata)

                else:

                    crawler.info(f'<search_name: {name}>, data: {data},')

    except IndexError as e:

        print(f"<出错时候的数据:{seq}>,<原因: e>")

    except Exception as e:

        data = None

        crawler.error(f"<Error: {url} {str(e)}>")

    if not data:

        crawler.info(f'<Retry url: {url}>, Retry times: {retry_index+1}')

        retry_index += 1

        proxy = get_proxy()

        return await fetch(item, session, proxy, retry_index)

async def bound_fetch(item, session, proxy):

    async with sem:

        await fetch(item, session, proxy)

async def print_when_done(tasks):

    [await _ for _ in limited_as_completed(tasks, 2000)]

async def run(data):

    async with aiohttp.ClientSession() as session:

        proxy = get_proxy()

        coros = (asyncio.ensure_future(bound_fetch(item, session, proxy)) for item in data)

        await print_when_done(coros)

def limited_as_completed(coros, limit):

    futures = [

        asyncio.ensure_future(c)

        for c in islice(coros, 0, limit)

    ]

    async def first_to_finish():

        while True:

            await asyncio.sleep(0.01)

            for f in futures:

                if f.done():

                    futures.remove(f)

                    try:

                        newf = next(coros)

                        futures.append(

                            asyncio.ensure_future(newf))

                    except StopIteration as e:

                        pass

                    return f.result()

    while len(futures) > 0:

        yield first_to_finish()

def get_use_list():

    fname = pathlib.Path.joinpath(pathlib.Path.cwd(), "namelist.txt")

    with open(fname, encoding='utf-8') as fs:

        data = (i.strip() for i in fs.readlines())

    return data

def get_md5(key):

    m = hashlib.md5()

    m.update(f'{key}0jjj890j0369dce05f9'.encode('utf-8'))

    a = m.hexdigest()

    return a

if __name__ == '__main__':

    crawler.info("开始下载")

    data = get_use_list()

    loop = asyncio.get_event_loop()

    loop.run_until_complete(run(data))

    loop.close()

aiohttp分流处理的更多相关文章

【转】aiohttp 源码解析之 request 的处理过程
[转自太阳尚远的博客:http://blog.yeqianfeng.me/2016/04/01/python-yield-expression/] 使用过 python 的 aiohttp 第三方库 ...
aiohttp使用队列
获取百度的搜索结果,然后把百度的长链接,获取到真实的url import time import aiofiles import aiohttp import asyncio from lxml im ...
aiohttp AppRunner的用法
参考廖雪峰的aiohttp教程,会出现两个DeprecationWarning, loop argument is deprecated Application.make_handler(...) i ...
python requests与aiohttp 速度对比
环境:centos7 python3.6 测试网址:www.bai.com 测试方式:抓取百度100次结果: aio: 10.702147483825684srequests: 12.4046785 ...
利用aiohttp制作异步爬虫
asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块.关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架--a ...
aiohttp的笔记之TCPConnector
TCPConnector维持链接池,限制并行连接的总量,当池满了,有请求退出再加入新请求.默认是100,limit=0的时候是无限制 1.use_dns_cache: 使用内部DNS映射缓存用以查询D ...
Python中syncio和aiohttp
CPython 解释器本身就不是线程安全的,因此有全局解释器锁(GIL),一次只允许使用一个线程执行 Python 字节码.因此,一个 Python 进程通常不能同时使用多个 CPU 核心.然而,标准 ...
aiohttp文档翻译-server(一)
web server 快速入门运行一个简单的web server 为了实现web server, 首先需要实现request handler 一个 request handler 必须是一个coro ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...

随机推荐

BZOJ 4004 [JLOI2015]装备购买 | 线性基
题目链接 Luogu P3265 题解非常正常的线性基! 但是我不会线性基-- (吐槽:#define double long double 才过--) #include <cstdio> ...
Linux监控--CPU、内存、I/O
CPU top命令能够实时监控系统的运行状态,并且可以按照CPU.内存和执行时间进行排序,同时top命令还可以通过交互式命令进行设定显示,通过top命令可以查看即时活跃的进行. 内存 free命令可以 ...
Java NIO -- 通道 Channel
通道(Channel):由 java.nio.channels 包定义的.Channel 表示 IO 源与目标打开的连接.Channel 类似于传统的“流”.只不过 Channel本身不能直接访问数据 ...
Android -- 面试 -- 数据库升级策略
升级:重写onUpgrade方法确定相邻版本的差别,从版本1开始依次迭代更新,先执行v1到v2,再v2到v3…… 为每个版本确定与现在数据库的差别,为每个case撰写专门的升级代码. 降级 ...
Hadoop、Hbase基本命令及调优方式
HDFS基本命令接触大数据挺长时间了,项目刚刚上完线,趁着空闲时间整理下大数据hadoop.Hbase等常用命令以及各自的优化方式,当做是一个学习笔记吧. HDFS命令基本格式:Hadoop fs ...
bzoj1345 序列问题
题意: 给你一个序列,长度为n.你需要进行n - 1次操作,每次合并两个相邻的数,代价是max,合并后成为max,求最小代价. n <= 1e6 解: 有个显然的做法是nlogn的,显然不行.. ...
试着用c写了一个多线程的同步
在Java中写多线程相关的程序简单很多,在多线程中需要同步的时候,使用synchronized就行了. 最近学习c的多线程与同步,感觉实现起来,要写的代码比较多一些,这也许是因为java封装的比较好吧 ...
java连接mysql的过程
今天突然心血来潮,想要用java连接mysql,记得以前是在vs2010的环境下用C#连接sql sever,其实他们的方法都差不多. 现在就可以简单的介绍下java如何连接mysql 第一步,设计m ...
ping的作用
Ping是潜水艇人员的专用术语,表示回应的声纳脉冲,在网络中Ping 是一个十分好用的TCP/IP工具.它主要的功能是用来检测网络的连通情况和分析网络速度. Ping有好的善的一面也有恶的一面.先说一 ...
GO语言的进阶之路-goroutine（并发）
GO语言的进阶之路-goroutine(并发) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 有人把Go比作21世纪的C 语言,第一是因为 Go语言设计简单,第二,21世纪最重要的 ...

aiohttp分流处理

aiohttp分流处理的更多相关文章

随机推荐

热门专题