Elasticsearch批量插入时，存在就不插入

当我们使用 Elasticsearch-py 批量插入数据到 ES 的时候，我们常常使用它的 helpers模块里面的bulk函数。其使用方法如下：

from elasticsearch import helpers, Elasticsearch

es = Elasticsearch(xxx)

def generator():

    datas = [1, 2, 3]

    for data in datas:

        yield {

            '_id': "xxx",

            '_source': {

                'age': data

            }

        }

helpers.bulk(es,

index='xxx',

generator(),

doc_type='doc',)

但这种方式有一个问题，它默认相当于upsert操作。如果_id 对应的文档已经在 ES 里面了，那么数据会被更新。如果_id 对应的文档不在 ES 中，那么就插入。

如果我想实现，不存在就插入，存在就跳过怎么办？此时就需要在文档里面添加_op_type指定操作类型为create:

from elasticsearch import helpers, Elasticsearch

es = Elasticsearch(xxx)

def generator():

    datas = [1, 2, 3]

    for data in datas:

        yield {

            '_op_type': 'create',

            '_id': "xxx",

            '_source': {

                'age': data

            }

        }

helpers.bulk(es,

generator(),

index='xxx',

doc_type='doc')

此时，如果_id 对应的文档不在 ES 中，那么就会正常插入，如果ES里面已经有_id对应的数据了，那么就会报错。由于bulk一次性默认插入500条数据，假设其中有2条数据已经存在了，那么剩下的498条会被正常插入。然后程序报错退出，告诉你有两条写入失败，因为已经存在。

如果你不想让程序报错终止，那么可以增加2个参数：

helpers.bulk(es,

    generator(),

    index='xxx',

    doc_type='doc',

    raise_on_exception=False,               raise_on_error=False)

其中raise_on_exception=False表示在插入数据失败时，不需要抛出异常。raise_on_error=False表示不抛出BulkIndexError。

转自：https://mp.weixin.qq.com/s?src=11&timestamp=1579108111&ver=2098&signature=ZXtHL4GJONIJr9lN3KD*vHKfeujxkmmrWRnFl3Pfyu0DENxKPlybBsPaIlcjfiy5woHNz-v8oWES6FQP5e8j3yTKJWCL2qLRbCRtWb6NLlHvLjyJvELSPyG0dXhv1sR6&new=1

Elasticsearch批量插入时，存在就不插入的更多相关文章

Oracle整合Mybatis实现list数据插入时,存在就更新,不存在就插入以及随机抽取一条记录
作者:故事我忘了￠个人微信公众号:程序猿的月光宝盒目录 Oracle整合Mybatis实现list数据插入时,存在就更新,不存在就插入 entity 对应表中字段,如不对应,在xml中起别名 map ...
mysql根据查询结果批量更新多条数据（插入或更新）
mysql根据查询结果批量更新多条数据(插入或更新) 1.1 前言 mysql根据查询结果执行批量更新或插入时经常会遇到1093的错误问题.基本上批量插入或新增都会涉及到子查询,mysql是建议不要对 ...
elasticsearch 批量插入
将下面数据写入requests { "create": { "_index": "index1", "_type": & ...
python elasticsearch 批量写入数据
from elasticsearch import Elasticsearch from elasticsearch import helpers import pymysql import time ...
ElasticSearch 批量增加索引
服务端批量增加索引,版本是5.1.1 TransportClient client; Settings esSettings = Settings.builder() .put("clust ...
mysql 使用存储过程批量插数据
#创建测试表 DROP TABLE IF EXISTS test.test; CREATE TABLE test.test( id int(10) not null auto_increment, a ...
Oracle 记录插入时“Invalid parameter binding ”错误
出现这种错误的原因可能有一下几种: 由于OracleParameter[] parameters:中parameters的个数和对应的插入SQL语句中的冒号个数不等: 参数个数和冒号个数相等,但是如下 ...
SQLite 批量insert - 如何加速SQLite的插入操作
本人翻译, 原文见: http://tech.vg.no/2011/04/04/speeding-up-sqlite-insert-operations/ 我正在开发一个Android程序, 它使用S ...
sql server 大批数据插入时，时间过长的问题
private const string con = "server=192.168.30.36;database=test;user=sa;pwd=123456"; static ...

随机推荐

numpy中的ndarray与pandas中的series、dataframe的转换
一个ndarray是一个多维同类数据容器.每一个数组有一个dtype属性,用来描述数组的数据类型. Series是一种一维数组型对象,包含了一个值序列,并且包含了数据标签----索引(index). ...
smtp 邮件传输协议 qq版实现
qq: telnet smtp.qq.com 587 (qq邮箱说明:http://service.mail.qq.com/cgi-bin/help?subtype=1&&id=28& ...
吴裕雄--天生自然Android开发学习：魅蓝3开启USB调试
打开手机点击:设置选择:关于手机在详情里面找到:版本号,然后不断地点击那个版本号. 然后返回一步再选择设置里面的:辅助功能再选择辅助功能里面的:开发者选项进入开发者选项后,选择打开两项:一是 ...
数据库三大范式和反范式 · oldmee
后一个范式都是在满足前一个范式的基础上建立的. 1NF 无重复的列.表中的每一列都是不可分割的基本数据项.不满足1NF的数据库不是关系数据库.如联系人表(姓名,电话),一个联系人有家庭电话和公司电话, ...
pandas向表格中循环写入数据
pandas向表格中循环写入多行数据 import pandas as pd def list_topic(total_num, str1): """ 生成多个主题 :p ...
haproxy笔记之二:HAProxy简介
HAProxy提供高可用性.负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机,它是免费.快速并且可靠的一种解决方案.HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持 ...
吴裕雄--天生自然 R语言开发学习：回归（续一）
#------------------------------------------------------------# # R in Action (2nd ed): Chapter 8 # # ...
Java Servlet XML文件配置
maven工程根项目运行ok但是子项目就报错的解决办法
正常启动没错项目出现问题 maven工程根项目运行ok但是子项目就报错报错信息是xxxx没有创建解决办法原来是子项目的依赖少了没有配置1.8 所以会出现莫明其妙的bug
远程终端协议 TELNET
远程终端协议 TELNET 1.1.概述 TELNET 是一个简单的远程终端协议,也是因特网的正式标准. 用户用 TELNET 就可在其所在地通过 TCP 连接的23端口,使用主机名或 IP 地址登录 ...

Elasticsearch批量插入时，存在就不插入

Elasticsearch批量插入时，存在就不插入的更多相关文章

随机推荐

热门专题