python3 多线程爬虫模板

原文：https://www.jianshu.com/p/06ae2373f560

  1 import threading  # 多线程模块

  2 import queue  # 队列模块

  3 import requests

  4 from lxml import etree

  5 import time

  6 import random

  7 import json

  8

  9 concurrent = 3  # 采集线程数

 10 conparse = 3  # 解析线程

 11

 12

 13 class Parse(threading.Thread):  # 解析线程类

 14     # 初始化属性

 15     def __init__(self, number, data_list, req_thread, f):

 16         super(Parse, self).__init__()

 17         self.number = number  # 线程编号

 18         self.data_list = data_list  # 数据队列

 19         self.req_thread = req_thread  # 请求队列，为了判断采集线程存活状态

 20         self.f = f  # 获取文件对象

 21         self.is_parse = True  # 判断是否从数据队列里提取数据

 22

 23

 24 def run(self):

 25     print('启动%d号解析线程' % self.number)

 26     # 无限循环，

 27     while True:

 28         # 如何判断解析线程的结束条件

 29         for t in self.req_thread:  # 循环所有采集线程

 30             if t.is_alive():  # 判断线程是否存活

 31                 break

 32         else:  # 如果循环完毕，没有执行break语句，则进入else

 33             if self.data_list.qsize() == 0:  # 判断数据队列是否为空

 34                 self.is_parse = False  # 设置解析为False

 35         # 判断是否继续解析

 36         if self.is_parse:  # 解析

 37             try:

 38                 data = self.data_list.get(timeout=3)  # 从数据队列里提取一个数据

 39             except Exception as e:  # 超时以后进入异常

 40                 data = None

 41             # 如果成功拿到数据，则调用解析方法

 42             if data is not None:

 43                 self.parse(data)  # 调用解析方法

 44         else:

 45             break  # 结束while 无限循环

 46     print('退出%d号解析线程' % self.number)

 47

 48

 49 # 页面解析函数

 50 def parse(self, data):

 51     html = etree.HTML(data)

 52     # 获取所有段子div

 53     duanzi_div = html.xpath('//div[@id="content-left"]/div')

 54     for duanzi in duanzi_div:

 55         # 获取昵称

 56         nick = duanzi.xpath('./div//h2/text()')[0]

 57         nick = nick.replace('\n', '')

 58         # 获取年龄

 59         age = duanzi.xpath('.//div[@class="author clearfix"]/div/text()')

 60         if len(age) > 0:

 61             age = age[0]

 62         else:

 63             age = 0

 64         # 获取性别

 65         gender = duanzi.xpath('.//div[@class="author clearfix"]/div/@class')

 66     if len(gender) > 0:

 67         if 'women' in gender[0]:

 68             gender = '女'

 69         else:

 70             gender = '男'

 71     else:

 72         gender = '中'

 73         # 获取段子内容

 74     content = duanzi.xpath('.//div[@class="content"]/span[1]/text()')[0].strip()

 75     # 获取好笑数

 76     good_num = duanzi.xpath('./div//span[@class="stats-vote"]/i/text()')[0]

 77     # 获取评论

 78     common_num = duanzi.xpath('./div//span[@class="stats-comments"]//i/text()')[0]

 79     item = {

 80         'nick': nick,

 81         'age': age,

 82         'gender': gender,

 83         'content': content,

 84         'good_num': good_num,

 85         'common_num': common_num,

 86     }

 87     self.f.write(json.dumps(item, ensure_ascii=False) + '\n')

 88

 89

 90 class Crawl(threading.Thread):  # 采集线程类

 91     # 初始化

 92     def __init__(self, number, req_list, data_list):

 93         # 调用Thread 父类方法

 94         super(Crawl, self).__init__()

 95         # 初始化子类属性

 96         self.number = number

 97         self.req_list = req_list

 98         self.data_list = data_list

 99         self.headers = {

100             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'

101         }

102         # 线程启动的时候调用

103

104     def run(self):

105         # 输出启动线程信息

106         print('启动采集线程%d号' % self.number)

107         # 如果请求队列不为空，则无限循环，从请求队列里拿请求url

108         while self.req_list.qsize() > 0:

109             # 从请求队列里提取url

110             url = self.req_list.get()

111             print('%d号线程采集：%s' % (self.number, url))

112             # 防止请求频率过快，随机设置阻塞时间

113             time.sleep(random.randint(1, 3))

114             # 发起http请求，获取响应内容，追加到数据队列里，等待解析

115             response = requests.get(url, headers=self.headers)

116             if response.status_code == 200:

117                 self.data_list.put(response.text)  # 向数据队列里追加

118

119

120 def main():

121     # 生成请求队列

122     req_list = queue.Queue()

123     # 生成数据队列 ，请求以后，响应内容放到数据队列里

124     data_list = queue.Queue()

125     # 创建文件对象

126     f = open('duanzi.json', 'w', encoding='utf-8')

127     # 循环生成多个请求url

128     for i in range(1, 13 + 1):

129         base_url = 'https://www.qiushibaike.com/8hr/page/%d/' % i

130         # 加入请求队列

131         req_list.put(base_url)

132     # 生成N个采集线程

133     req_thread = []

134     for i in range(concurrent):

135         t = Crawl(i + 1, req_list, data_list)  # 创造线程

136         t.start()

137         req_thread.append(t)

138     # 生成N个解析线程

139     parse_thread = []

140     for i in range(conparse):

141         t = Parse(i + 1, data_list, req_thread, f)  # 创造解析线程

142         t.start()

143         parse_thread.append(t)

144     for t in req_thread:

145         t.join()

146     for t in parse_thread:

147         t.join()

148     # 关闭文件对象

149     f.close()

150

151 if __name__ == '__main__':

152     main()

python3 多线程爬虫模板的更多相关文章

python3多线程爬虫（第一卷）
多进程虽然使用方便,可以充分利用CPU,但是由于个进程之间是并行且各自有自己的数据存储,所以很难进行数据间的通信,需要接入第三方模块,现在我依旧用糗事百科讲解下多线程的应用,举个例子之前用4个进程同时 ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
HTML5触屏版多线程渲染模板技术分享
前言: 了解js编译原理的屌丝们都知道,js是单线程的,想当年各路神仙为了实现js的多线程,为了解决innerHTML输出大段HTML卡页面的顽疾,纷纷设计了诸如假冒的“多线程“实现,我自己也在写开源 ...
Task 实现多线程的模板
1.Task多线程简单模板 using System; using System.Collections.Generic; using System.Threading.Tasks; ...
Python3.x爬虫教程：爬网页、爬图片、自己主动登录
林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自己主动登录.并对HTTP协议做了一个简单 ...
python多线程爬虫设计及实现示例
爬虫的基本步骤分为:获取,解析,存储.假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型.那么在设计多线程爬虫时主要有两种方案:第一种方案是一个线程完成三个步骤,然后运行多个线程 ...
Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...
多线程爬虫Miner
多线程爬虫Miner 需要配置项:1.URL包含关键字.2.存储方式:DB-数据库存储;FILE-文件存储.3.爬取页面最大深度.4.下载页面线程数.5.分析页面线程数.6.存储线程数. ------ ...
python爬虫入门（四）利用多线程爬虫
多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...

随机推荐

【哈希表】leetcode454——四数相加II
编号454:四数相加II 给定四个包含整数的数组列表 A , B , C , D ,计算有多少个元组 (i, j, k, l) ,使得 A[i] + B[j] + C[k] + D[l] = 0. 为 ...
Virtualbox 安装centos7虚拟机
Virtualbox 安装centos7虚拟机一,下载centos7 下载地址:https://mirrors.tuna.tsinghua.edu.cn/centos/7.9.2009/isos/x ...
Vue 面试题汇总
Vue 面试题汇总 refs xgqfrms 2012-2020 www.cnblogs.com 发布文章使用:只允许注册用户才可以访问!
vuepress & package.json lock version
vuepress & package.json lock version npm 锁版 bug npm lock version holy shit { "name": & ...
在线打开,浏览PDF文件的各种方式及各种pdf插件------(MS OneDrive/google drive & google doc/ github ?raw=true)
在线打开,浏览PDF文件的各种方式: 1 Google drive&doc (国内不好使,you know GFW=Great Firewall) 1. google drive: 直接分 ...
Principle for iOS App Animation Design
Principle for iOS App Animation Design Animate Your Ideas, Design Better Apps https://principleforma ...
Dart Generic All In One
Dart Generic All In One Dart 泛型 https://dart.dev/guides/language/language-tour#generics /** * * @aut ...
新三板 & 挂牌费用
新三板 & 挂牌费用关于拟申请公司股票在全国中小企业股份转让系统终止挂牌的提示性公告 https://pilu.tianyancha.com/announcement/ef51e981910 ...
py pandas
import pandas as pd class Main(): def __init__(self): # 读取excel self.df = pd.read_excel("C:\\Us ...
「NGK每日快讯」12.24日NGK第51期官方快讯！

python3 多线程爬虫模板

python3 多线程爬虫模板的更多相关文章

随机推荐

热门专题