爬虫链接mongodb 以及多线程多进程的操作

一、连接mongodb

1、设置数据库 client=pymongo.MongoClient(‘localhost’)

2、 db=client[‘lagou’]设置连接的数据库名称

POSITION_NAME=’’ 、PAGE_SUM 、PAGE_SIZE 等为你设置的变量名称。

3、DATA_NAME=’dataposition’   # # 指定数据库的名字

4、设置保存在mongo数据库中的数据：

def save_to_mongo(data):

    if db[DATA_NAME].update({'positionId': data['positionId']}, {'$set': data}, True):

        print('Saved to Mongo', data['positionId'])

    else:

        print('Saved to Mongo Failed', data['positionId'])

这是以positionId为唯一标识，如果数据库里面已经存在有positionId,说明数据已经爬过了，不再更新。

二、多进程设置和使用：

1、导入多进程：from multiprocessing import Pool

导入时间  import time

2、start_time = time.time()

pool = Pool()  # pool()参数：进程个数：默认的是电脑cpu的核的个数，如果要指定进程个数，这个进程个数要小于等于cpu的核数

# 第一个参数是一个函数体，不需要加括号，也不需指定参数。。

#  第二个参数是一个列表，列表中的每个参数都会传给那个函数体

pool.map(to_mongo_pool,[i for i in range(PAGE_SUM)])

# close它只是把进程池关闭

pool.close()

# join起到一个阻塞的作用，主进程要等待子进程运行完，才能接着往下运行

pool.join()

end_time = time.time()

print("总耗费时间%.2f秒" % (end_time - start_time))

to_mongo_pool:这个函数要设计好，就一个参数就够了，然后把它的参数放在列表里面，通过map高阶函数一次传给to_mongo_pool

多线程的使用：

多线程要配合队列使用：

# coding=utf-8

import requests

from lxml import etree  

import threading 导入线程

from queue import Queue  导入队列
# https://docs.python.org/3/library/queue.html#module-queu

# 队列使用方法简介

# q.qsize() 返回队列的大小

# q.empty() 如果队列为空，返回True,反之False

# q.full() 如果队列满了，返回True,反之False

# q.full 与 maxsize 大小对应

# q.get([block[, timeout]]) 获取队列，timeout等待时间

# q.get_nowait() 相当q.get(False)

# q.put(item) 写入队列，timeout等待时间

# q.put_nowait(item) 相当q.put(item, False)

# q.task_done() 在完成一项工作之后，q.task_done() 函数向任务已经完成的队列发送一个信号

# q.join() 实际上意味着等到队列为空，再执行别的操作

class Lianjia:

    def __init__(self):

        self.url_temp = url = "https://gz.lianjia.com/ershoufang/pg{}/"

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

        self.url_queue = Queue()

        self.html_queue = Queue()

        self.content_queue = Queue()

    def get_url_list(self):

        # return [self.url_temp.format(i) for i in range(1,14)]

        for i in range(1, 14):

            # 把13个索引页面的Url放进url_queue队列里

            self.url_queue.put(self.url_temp.format(i))

定义运行函数

def run(self):  # 实现主要逻辑

    thread_list = []

    # 1.url_list

    # threading.Thread不需要传参数，参数都是从队列里面取得

    t_url = threading.Thread(target=self.get_url_list)

    thread_list.append(t_url)

    # 2.遍历，发送请求，获取响应

    for i in range(20):  # 添加20个线程

        t_parse = threading.Thread(target=self.parse_url)

        thread_list.append(t_parse)

    # 3.提取数据

    for i in range(2):  # 添加2个线程

        t_html = threading.Thread(target=self.get_content_list)

        thread_list.append(t_html)

    # 4.保存

    t_save = threading.Thread(target=self.save_content_list)

    thread_list.append(t_save)

    for t in thread_list:

        t.setDaemon(True)  # 把子线程设置为守护线程，该线程不重要，主线程结束，子线程结束(子线程是while true不会自己结束)

        t.start()

    for q in [self.url_queue, self.html_queue, self.content_queue]:

        q.join()  # 让主线程等待阻塞，等待队列的任务完成（即队列为空时 ）之后再进行主线程

    print("主线程结束")

爬虫链接mongodb 以及多线程多进程的操作的更多相关文章

爬虫连接mongodb、多线程多进程的使用
一.连接mongodb 1. 设置数据库 client=pymongo.MongoClient(‘localhost’) 2. db=client[‘lag ...
Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？
最近正在学习Python中的异步编程,看了一些博客后做了一些小测验:对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效 ...
自动更改IP地址反爬虫封锁，支持多线程(转)
8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信机房,能跨省跨市更好,我这里写好的断线重拨组件,你可以直接使用. ADSL拨号上网使用动态IP地址,每一次拨号得到的IP ...
C++程序员面试题目总结(涉及C++基础、多线程多进程、网络编程、数据结构与算法)
说明:C++程序员面试题目总结(涉及C++基础知识.多线程多进程.TCP/IP网络编程.Linux操作.数据结构与算法) 内容来自作者看过的帖子或者看过的文章,个人整理自互联网,如有侵权,请联系作者 ...
Python多线程多进程
一.线程&进程对于操作系统来说,一个任务就是一个进程(Process),比如打开一个浏览器就是启动一个浏览器进程,打开一个记事本就启动了一个记事本进程,打开两个记事本就启动了两个记事本进程, ...
Python爬虫进阶五之多线程的用法
前言我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...
python学习笔记(十三): 多线程多进程
一.线程&进程对于操作系统来说,一个任务就是一个进程(Process),比如打开一个浏览器就是启动一个浏览器进程,打开一个记事本就启动了一个记事本进程,打开两个记事本就启动了两个记事本进程, ...
python学习之多线程多进程
python基础进程&线程进程是一组资源的集合,运行一个系统就是打开了一个进程,如果同时打开了两个记事本就是开启了两个进程,进程是一个笼统的概念,进程中由线程干活工作,由进程统一管理一个 ...
dotnet core 使用 MongoDB 进行高性能Nosql数据库操作
好久没有写过Blog, 每天看着开源的Java社区流口水, 心里满不是滋味. 终于等到了今年六月份 dotnet core 的正式发布, 看着dotnet 社区也一步一步走向繁荣, 一片蒸蒸日上的大好 ...

随机推荐

《HelloGitHub》第 42 期
兴趣是最好的老师,HelloGitHub 就是帮你找到兴趣! 简介分享 GitHub 上有趣.入门级的开源项目. 这是一个面向编程新手.热爱编程.对开源社区感兴趣人群的月刊,月刊的内容包括:各种编 ...
Java 基础篇之集合
List 集合 List 集合中元素有序.可重复,集合中每个元素都有其对应的索引顺序. List 判断两个对象相等,只要通过 equals 方法比较返回 true 即可. 看个例子: public c ...
quartz-scheduler定时器实现
第一步,在pom.xml中引入quartz-scheduler. <dependency> <groupId>org.quartz-scheduler</groupId& ...
Kafka 学习笔记之 Consumer API
Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API ...
ActiveMQ学习总结------实战操作（上）02
相信大家通过上一篇博文已经对ActiveMQ有了一个大致的概念了, 那么本篇博文将带领大家一步一步去实战操作我们的ActiveMQ 本篇主要内容: 1.ActiveMQ术语及API介绍 2.Activ ...
基于Linux的kfifo移植到STM32（支持os的互斥访问）
基于Linux的kfifo移植到STM32(支持os的互斥访问) 关于kfifo kfifo是内核里面的一个First In First Out数据结构,它采用环形循环队列的数据结构来实现:它提供一个 ...
货物运输 51Nod - 1671
公元2222年,l国发生了一场战争. 小Y负责领导工人运输物资. 其中有m种物资的运输方案,每种运输方案形如li,ri.表示存在一种货物从li运到ri. 这里有n个城市,第i个城市与第i+1个城市相连 ...
使用foreach语句对数组成员进行遍历
/*** 使用foreach语句对数组成员进行遍历* **/ public class ForeachDemo { public static void main(String[] args) { i ...
RocketMQ事务消息学习及刨坑过程
一.背景 MQ组件是系统架构里必不可少的一门利器,设计层面可以降低系统耦合度,高并发场景又可以起到削峰填谷的作用,从单体应用到集群部署方案,再到现在的微服务架构,MQ凭借其优秀的性能和高可靠性,得到了 ...
Linux快速入门
一.Linux介绍 1.Linux是基于Unix的开源免费的操作系统 2.Linux的分类: (1)Linux根据市场需求不同,基本分为两个方向: 1)图形化界面版:注重用户体验,类似window操作 ...

爬虫链接mongodb 以及多线程多进程的操作

爬虫链接mongodb 以及多线程多进程的操作的更多相关文章

随机推荐

热门专题