python爬虫-使用线程池与使用协程的实例

背景：爬取豆瓣电影top250的信息

使用线程池

import re

from concurrent.futures import ThreadPoolExecutor

import requests

#获取豆瓣电影top250电影名字、导演、评分、评价人数

def getDoubanRource(url):

    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"}

    res=requests.get(url,headers=header)

    #获取页面源代码

    pagesource = res.text

    #预加热正则表达式对象

    obj=re.compile(r'<span class="title">(?P<filmname>.*?)</span>.*?<p class="">\s*(?P<director>.*?)'

                   r' .*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span>(?P<person>.*?)评价</span>',re.S)

    reptile_res=obj.finditer(pagesource)

    with open("D:\dir_ytj\\dome1.csv",mode="a") as f:

        for item in reptile_res :

            filmname=item.group("filmname")

            director = item.group("director")

            score = item.group("score")

            person = item.group("person")

            f.write(f"{filmname},{director},{score},{person}\n")

        print(url,"收取完毕")

if __name__ == '__main__':

    with ThreadPoolExecutor(10) as t:

        for i in range(10):

            t.submit(getDoubanRource,f"https://movie.douban.com/top250?start={25*i}&filter=")

    print("完成全部信息收录")

使用协程

import asyncio

import sys,io

import re

from concurrent.futures import ThreadPoolExecutor

import requests

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

#获取豆瓣电影top250电影名字、导演、评分、评价人数

async def writeCsv(filmname,director,score,person):

    with open("D:\dir_ytj\\dome2.csv", mode="a") as f:

        f.write(f"{filmname},{director},{score},{person}\n")

async def getDoubanRource(url):

    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"}

    res=requests.get(url,headers=header)

    #获取页面源代码

    pagesource = res.text

    #预加热正则表达式对象

    obj=re.compile(r'<span class="title">(?P<filmname>.*?)</span>.*?<p class="">\s*(?P<director>.*?)'

                   r' .*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span>(?P<person>.*?)评价</span>',re.S)

    reptile_res=obj.finditer(pagesource)

    tasks=[]

    for item in reptile_res :

        filmname=item.group("filmname")

        director = item.group("director")

        score = item.group("score")

        person = item.group("person")

        tasks.append(writeCsv(filmname,director,score,person))

    await asyncio.wait(tasks)

if __name__ == '__main__':

    print("正在收集网页信息......")

    for i in range(10):

        asyncio.run(getDoubanRource(f"https://movie.douban.com/top250?start={25*i}&filter="))

    print("收集完成")

python爬虫-使用线程池与使用协程的实例的更多相关文章

python爬虫之线程池和进程池
一.需求最近准备爬取某电商网站的数据,先不考虑代理.分布式,先说效率问题(当然你要是请求的太快就会被封掉,亲测,400个请求过去,服务器直接拒绝连接,心碎),步入正题.一般情况下小白的我们第一个想到 ...
day35:线程队列&进程池和线程池&回调函数&协程
目录 1.线程队列 2.进程池和线程池 3.回调函数 4.协程:线程的具体实现 5.利用协程爬取数据线程队列 1.线程队列的基本方法 put 存 get 取 put_nowait 存,超出了队列长度 ...
Python 线程----线程方法,线程事件,线程队列,线程池,GIL锁,协程,Greenlet
主要内容: 线程的一些其他方法线程事件线程队列线程池 GIL锁协程 Greenlet Gevent 一. 线程(threading)的一些其他方法 from threading import ...
Python爬虫之线程池
详情点我跳转关注公众号"轻松学编程"了解更多. 一.为什么要使用线程池? 对于任务数量不断增加的程序,每有一个任务就生成一个线程,最终会导致线程数量的失控,例如,整站爬虫,假设初 ...
python队列、线程、进程、协程
目录: 一.queue 二.线程基本使用线程锁自定义线程池生产者消费者模型(队列) 三.进程基本使用进程锁进程数据共享默认数据不共享 queues array Manager.dict ...
python队列、线程、进程、协程(转)
原文地址: http://www.cnblogs.com/wangqiaomei/p/5682669.html 一.queue 二.线程 #基本使用 #线程锁 #自定义线程池 #生产者消费者模型(队列 ...
python基础之线程、进程、协程
线程线程基础知识一个应用程序,可以多进程.也可以多线程. 一个python脚本,默认是单进程,单线程的. I/O操作(音频.视频.显卡操作),不占用CPU,所以: 对于I/O密集型操作,不会占用C ...
python之路线程、进程、协程、队列、python-memcache、python-redis
一.线程 Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元. #!/usr/bin/env python # -*- coding:utf-8 -*- import threa ...
Python：简述线程、进程和协程
Python线程定义:Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元. #!/usr/bin/env python # -*- coding:utf-8 -*- impor ...

随机推荐

使用污点分析检查log4j问题
摘要:log4j问题的余波还在继续,为什么这个问题潜伏了这么长时间,大家一直没有发现?这里从静态分析的角度谈下log4j问题的发现. 本文分享自华为云社区<使用污点分析检查log4j问题> ...
2、网络并发编程--套接字编程、黏包问题、struct模块、制作简易报头、上传文件数据
昨日内容回顾面向对象复习(json序列化类) 对象.类.父类的概念三大特性:封装继承多态双下开头的方法(达到某个条件自动触发) __init__:对象实例化自动触发 __str__:对象执行 ...
「Python实用秘技05」在Python中妙用短路机制
本文完整示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/PythonPracticalSkills 这是我的系列文章「Python实用秘技」的第5期 ...
Solution Set - Border Theory
我发现写 Solution Set 就不用写每道题的题意了,岂不美哉? 首先是一些奇妙结论. 定理 1(弱周期定理) 对于字符串 \(S\),若 \(S[:p]\) 和 \(S[:q]\) ...
matlab文件处理
1.读取文件(按行读取) fid = open('file_name');while(~feof(fid)) line = fgetl(fid); % 读取一行数据 endfid.close(); 2 ...
MySQL架构原理之体系架构
MySQL是最流行的关系型数据库软件之一,由于其体量小.速度快.开源免费.简单易用.维护成本低等,在季军架构中易于扩展.高可用等优势,深受开发者和企业的欢迎,在互联网行业广泛使用. 其系统架构如下: ...
GMP
目录 GMP 含义模型状态汇总 G状态 P的状态 M的状态调度场景总结 GMP 含义 Goroutine的并发编程模型基于GMP模型,简要解释一下GMP的含义: G:表示goroutine,每 ...
华为模拟器 AP AC配置
组网示意图: 前提条件:1)所有设备工作正常2)依据上述组网建立测试环境 1)正确配置AC使AP发放SSID:'SSID-Temp1'.'SSID-Temp2'和'SSID-Temp3',且对应业务v ...
360携手HarmonyOS打造独特的“天气大师”
做创新,首先要找到有增长趋势的流量红利,对我们来说,HarmonyOS就是绝佳的合作伙伴. --申悦 360手机助手创研产品部负责人一.我们是谁? 我们来自360,是一支致力于孵化新业务的内部创新小 ...
常用windows快捷键及cmd、dos命令
Windows常用快捷键 #Alt+F4:关闭窗口.网页 #ctrl+C:复制 #ctrl+V:粘贴 #ctrl+X:剪切 #ctrl+Z:撤销 #ctrl+A:全选 #ctrl+S:保存 #shif ...

python爬虫-使用线程池与使用协程的实例

python爬虫-使用线程池与使用协程的实例的更多相关文章

随机推荐

热门专题