python mongo存在插入不存在更新，同时指定如果不存在才插入的字段

python爬虫的任务数据操作的小技巧

好久没写公众号了，最近太忙了，这里就不多说了。直接根据需求上代码，我想这个应该是大家比较喜欢的，

需求

爬取某网站的项目列表页，获取其url，标题等信息，作为后续爬取详情页的任务url。

先上代码

代码

# -*- coding: utf-8 -*-

# @Time : 2019-11-08 14:04

# @Author : cxa

# @File : motor_helper.py

# @Software: PyCharm

import asyncio

import datetime

from loguru import logger

from motor.motor_asyncio import AsyncIOMotorClient

from collections import Iterable

try:

    import uvloop

    asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())

except ImportError:

    pass

db_configs = {

    'host': '127.0.0.1',

    'port': '27017',

    'db_name': 'mafengwo',

    'user': ''

}

class MotorOperation:

    def __init__(self):

        self.__dict__.update(**db_configs)

        if self.user:

            self.motor_uri = f"mongodb://{self.user}:{self.passwd}@{self.host}:{self.port}/{self.db_name}?authSource={self.db_name}"

        else:

            self.motor_uri = f"mongodb://{self.host}:{self.port}/{self.db_name}"

        self.client = AsyncIOMotorClient(self.motor_uri)

        self.mb = self.client[self.db_name]

    async def save_data_with_status(self, items, col="seed_data"):

        for item in items:

            data = dict()

            data["update_time"] = datetime.datetime.now()

            data["status"] = 0  # 0初始

            data.update(item)

            print("data", data)

            await self.mb[col].update_one({

                "url": item.get("url")},

                {'$set': data, '$setOnInsert': {'create_time': datetime.datetime.now()}},

                upsert=True)

     async def add_index(self, col="seed_data"):

        # 添加索引

        await self.mb[col].create_index('url')

因为我的爬虫是异步网络模块aiohttp写的，所以选择了pymongo的异步版本motor进行操作。

异步代码的基本属性就是async/await成对的出现，如果把上面的await和async去掉，就是类似pymongo的写法了,这里异步不是重点，重点是我们怎么处理每条数据。

这里除了网页的url，标题等信息，我需要附加3个字段。分别是create_time, status,update_time。

这三个字段分别代表，数据插入数据，状态和更新时间。

那么我为什么添加三个字段呢？

首先，我们需要判断每次的任务数据是否存在，我这里的情况是存在就更新不存在就插入，那么我就需要一个查询条件，作为更新的条件，很显然这里可以使用任务的url作为唯一条件(你还可以使用url+标题做个md5然后保存)。好了查询条件确定，

下面说create_time这个比较好理解就是数据插入时间,关键是为什么还要一个update_time，这个的话和status字段有一定的关系。画重点：这个status作为后续爬虫进行爬取的一个标志用。目前这个status有4个值，0-4，我这是这样定义的，

0:初始状态 1:抓取中的任务 2:抓取成功 3:抓取失败 4:抓取成功但是没有匹配到任务。

后面随着任务的爬取，状态也是不断变化的，同时我们需要更新update_time为最新的时间。这个目前的话是体现不出来什么作用，它的使用场景是，重复任务的抓取，比如今天我抓取了任务列表里的url1,url2，第二天的时候我如果再抓到，为了区分是抓取失败还是抓取成功，我们根据create_time和update_time就可以进行推断了，如果两者相同而且是当前的日期说明刚抓的，如果update_time的日期比create_time新可以说明，抓到了重复的任务。关于字段的设计就啰嗦这么写。

下面是实现，我们可以通过update_one方法，对数据作存在或者插入操作，因为url作为查询条件，后面量大的话就最好添加一个索引。也就是上面的 add_index方法。

好了最好说插入更新的具体代码

需要注意的是

{'$set': data, '$setOnInsert': {'create_time': datetime.datetime.now()}}

$setOnInsert里面使用的字段是数据不存在的时候才插入的，存在就不动了，只插入$set里面指定的。

另外$setOnInsert里面使用的字段不能在$set里面再次出现

upsert=True代表的是不存在就插入。

大概就这么多，不明白的可以给我留言，或者添加微信进群交流。

python mongo存在插入不存在更新，同时指定如果不存在才插入的字段的更多相关文章

Python Mongo操作
# -*- coding: utf-8 -*- ''' Python Mongo操作Demo Done: ''' from pymongo import MongoClient conn = None ...
Python之路,Day25-----暂无正在更新中
Python之路,Day25-----暂无正在更新中
Python之路,Day26-----暂无正在更新中
Python之路,Day26-----暂无正在更新中
Python之路,Day23-----暂无正在更新中
Python之路,Day23-----暂无正在更新中
Python之路,Day13-----暂无正在更新中
Python之路,Day13-----暂无正在更新中
MySQL 避免重复数据的批量插入与批量更新
[转发] 导读我们在向数据库里批量插入数据的时候,会遇到要将原有主键或者unique索引所在记录更新的情况,而如果没有主键或者unique索引冲突的时候,直接执行插入操作. 这种情况下,有三种方式执 ...
spring data jpa开启批量插入、批量更新
spring data jpa开启批量插入.批量更新原文链接:https://www.cnblogs.com/blog5277/p/10661096.html 原文作者:博客园--曲高终和寡 *** ...
MySql快速插入以及批量更新
MySql快速插入以及批量更新插入: MySql提供了可以一次插入多条数据的用法: [sql] INSERT INTO tbl_name (a,b,c) VALUES(1,2,3),(4,5,6), ...
mysql主键重复,不抱错，只更新的骚操作（如果没有插入，如果有更新）
平时我们在设计数据库表的时候总会设计 unique 或者给表加上 primary key 的限制条件. 此时插入数据的时候 ,经常会有这样的情况: 我们想向数据库插入一条记录: 若数据表中存在以 ...

随机推荐

css盒模型。边框和内外边距
css盒模型: 外边距边框内填充内容盒模型分为两种: 标准盒模型: 怪异盒模型(IE盒模型): 边框:border border: 10px solid blue;表示设置10像素蓝色实线条的 ...
Django:web认识，jinja2模块，如何安装Django
一内容概要 1.HTTP协议 1.1简介超文本传输协议(英文:Hyper Text Transfer Protocol,HTTP)是一种用于分布式.协作式和超媒体信息系统的应用层协议.HTTP是 ...
stm32 USART_IT_IDLE中断一帧数据
USART_IT_IDLE中断,是串口收到一帧数据后,发生的中断.也可以叫做一包数据 USART_IT_IDLE和USART_IT_RXNE区别当接收到1个字节,会产生USART_IT_RXNE中断 ...
【JUC】4.Synchronized与ReentrantLock对比
与synchronized相同,ReentrantLock也是一种互斥锁: synchronized与ReentrantLock的对比: 都是可重入锁可以再次获取自己的内部锁,即:一个线程获取某对象 ...
Linux命令——systemctl
前言 systemctl本身的意义并不仅仅是一个命令那么简单,他标志着SysV时代的终结,Systemd时代的开始.CentOS 7.X系列已经抛弃SysV,全面拥抱Systemd这个init sys ...
P1903 [国家集训队]数颜色 / 维护队列（带修莫队）
题目描述: 墨墨购买了一套N支彩色画笔(其中有些颜色可能相同),摆成一排,你需要回答墨墨的提问.墨墨会向你发布如下指令: 1. Q L R代表询问你从第L支画笔到第R支画笔中共有几种不同颜色的画笔. ...
Oracle SQL developer客户端如何连接已经安装完毕的Oracle服务器端
对于刚刚安装完毕Oracle数据库后不知道如何链接使用,可参考以下解决方案. Part 1 首先说服务: 如果正确安装Oracle 11g客户端的朋友们注意了,想要Oracle数据库正常启动有如下三个 ...
test20190803 夏令营NOIP训练19
60+100+0=160 贪婪大陆面对蚂蚁们的疯狂进攻,小FF的Tower defence宣告失败--人类被蚂蚁们逼到了Greed Island上的一个海湾.现在,小FF的后方是一望无际的大海, 前 ...
CheckList 如何梳理可减少上线的验证时间（总结篇）
对CheckList的执行发起的思考? (1)功能越来越多,CheckList越补充越多,执行CheckList时间越来越长,如何减少上线的验证时间?(2)减少上线验证的时间外,如何保证质量?上线后少 ...
开启idea自动Build功能
修改Intellij IDEA的配置两步:1.setting -> Compile -> Build project automatically --> 选中 2.CTRL + SH ...

python mongo存在插入不存在更新，同时指定如果不存在才插入的字段

需求

代码

python mongo存在插入不存在更新，同时指定如果不存在才插入的字段的更多相关文章

随机推荐

热门专题