Elasticsearch删除操作详解
01 题记
想到删除,基础认知是delete,细分为删除文档(document)和删除索引;要删除历史数据,基础认知是:删除了给定条件的数据,用delete_by_query。
实际操作发现:
删除文档后,磁盘空间并没有立即减少,反而增加了?
除了定时任务+delete_by_query,有没有更好的方式呢?
02 常见的删除操作
2.1 删除单个文档
1DELETE /twitter/_doc/1
2.2 删除满足给定条件的文档
1POST twitter/_delete_by_query
2{
3 "query": {
4 "match": {
5 "message": "some message"
6 }
7 }
8}
注意:执行批量删除的时候,可能会发生版本冲突。强制执行删除的方式如下:
1POST twitter/_doc/_delete_by_query?conflicts=proceed
2{
3 "query": {
4 "match_all": {}
5 }
6}
2.3 删除单个索引
1DELETE /twitter
2.4 删除所有索引
1DELETE /_all
或者
1DELETE /*
删除所有索引是非常危险的操作,要注意谨慎操作。
03 删除文档后台做了什么?
执行删除后的返回结果:
1{
2 "_index": "test_index",
3 "_type": "test_type",
4 "_id": "22",
5 "_version": 2,
6 "result": "deleted",
7 "_shards": {
8 "total": 2,
9 "successful": 1,
10 "failed": 0
11 },
12 "_seq_no": 2,
13 "_primary_term": 17
14}
解读:
索引的每个文档都是版本化的。
删除文档时,可以指定版本以确保我们试图删除的相关文档实际上被删除,并且在此期间没有更改。
每个在文档上执行的写操作,包括删除,都会使其版本增加。
真正的删除时机:
deleting a document doesn’t immediately remove the document from disk; it just marks it as deleted. Elasticsearch will clean up deleted documents in the background as you continue to index more data.
04 删除索引和删除文档的区别?
1)删除索引是会立即释放空间的,不存在所谓的“标记”逻辑。
2)删除文档的时候,是将新文档写入,同时将旧文档标记为已删除。 磁盘空间是否释放取决于新旧文档是否在同一个segment file里面,因此ES后台的segment merge在合并segment file的过程中有可能触发旧文档的物理删除。
但因为一个shard可能会有上百个segment file,还是有很大几率新旧文档存在于不同的segment里而无法物理删除。想要手动释放空间,只能是定期做一下force merge,并且将max_num_segments设置为1。
1POST /_forcemerge
05 如何仅保存最近100天的数据?
有了上面的认知,仅保存近100天的数据任务分解为:
1)delete_by_query设置检索近100天数据;
2)执行forcemerge操作,手动释放磁盘空间。
删除脚本如下:
1#!/bin/sh
2curl -H'Content-Type:application/json' -d'{
3 "query": {
4 "range": {
5 "pt": {
6 "lt": "now-100d",
7 "format": "epoch_millis"
8 }
9 }
10 }
11}
12' -XPOST "http://192.168.1.101:9200/logstash_*/
13_delete_by_query?conflicts=proceed"
merge脚本如下:
1#!/bin/sh
2curl -XPOST 'http://192.168.1.101:9200/_forcemerge?
3only_expunge_deletes=true&max_num_segments=1'
06 有没有更通用的方法?
有,使用ES官网工具——curator工具。
6.1 curator简介
主要目的:规划和管理ES的索引。支持常见操作:创建、删除、合并、reindex、快照等操作。
6.2 curator官网地址
http://t.cn/RuwN0oM
Git地址:https://github.com/elastic/curator
6.3 curator安装向导
注意:
curator各种博客教程层出不穷,但curator旧版本和新版本有较大差异,建议参考官网最新手册部署。
旧版本命令行方式新版本已不支持。
6.4 curator命令行操作
1$ curator --help
2Usage: curator [OPTIONS] ACTION_FILE
3 Curator for Elasticsearch indices.
4 See http://elastic.co/guide/en/elasticsearch/client/curator/current
5Options:
6 --config PATH Path to configuration file. Default: ~/.curator/curator.yml
7 --dry-run Do not perform any changes.
8 --version Show the version and exit.
9 --help Show this message and exit.
核心:
配置文件config.yml:配置要连接的ES地址、日志配置、日志级别等;
执行文件action.yml: 配置要执行的操作(可批量)、配置索引的格式(前缀匹配、正则匹配方式等)
6.5 curator适用场景
最重要的是:
仅以删除操作为例:curator可以非常简单地删除x天后的索引的前提是:索引命名要遵循特定的命名模式——如:以天为命名的索引:logstash_2018.04.05。
命名模式需要和action.yml中的delete_indices下的timestring对应。
07 小结
多参考官网最新的文档,历史版本的历史文档很容易误导人;
多真正去实践,而不是仅限于知道;
medcl:ES新版本6.3 有一个 Index LifeCycle Management 可以很方便的管理索引的保存期限。
Elasticsearch删除操作详解的更多相关文章
- c++排序二叉树的出现的私有函数讨论,以及二叉树的删除操作详解
c++排序二叉树的出现的私有函数讨论, 以及二叉树的删除操作详解 标签(空格分隔): c++ 前言 我在c++学习的过程中, 最近打了一个排序二叉树的题目,题目中出现了私有函数成员,当时没有理解清楚这 ...
- Linux Shell数组常用操作详解
Linux Shell数组常用操作详解 1数组定义: declare -a 数组名 数组名=(元素1 元素2 元素3 ) declare -a array array=( ) 数组用小括号括起,数组元 ...
- [Android新手区] SQLite 操作详解--SQL语法
该文章完全摘自转自:北大青鸟[Android新手区] SQLite 操作详解--SQL语法 :http://home.bdqn.cn/thread-49363-1-1.html SQLite库可以解 ...
- shell字符串操作详解
shell字符串操作详解的相关资料. 1.shell变量声明的判断 表达式 含义 ${var} 变量var的值, 与$var相同 ${var-DEFAULT} 如果var没有被声明, 那么就以$DE ...
- memcached 命令操作详解
memcached 命令操作详解 一.存储命令 存储命令的格式: <command name> <key> <flags> <exptime> < ...
- windows phone 8.1开发SQlite数据库操作详解
原文出自:http://www.bcmeng.com/windows-phone-sqlite1/ 本文小梦将和大家分享WP8.1中SQlite数据库的基本操作:(最后有整个示例的源码)(希望能通过本 ...
- python/ORM操作详解
一.python/ORM操作详解 ===================增==================== models.UserInfo.objects.create(title='alex ...
- B树和B+树的插入、删除图文详解(good)
B树和B+树的插入.删除图文详解 1. B树 1. B树的定义 B树也称B-树,它是一颗多路平衡查找树.我们描述一颗B树时需要指定它的阶数,阶数表示了一个结点最多有多少个孩子结点,一般用字母m表示阶数 ...
- SVN的Windows和Linux客户端操作详解
SVN的Windows和Linux客户端操作详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Windows客户端操作 1.安装SVN客户端 a>.去官网下载svn软件 ...
随机推荐
- logback-spring 集成 ELK、kafka的配置
pom.xml <dependency> <groupId>com.github.danielwegener</groupId> <artifactId> ...
- 从零开始手写Cartographer(1): 开端
写在前面的话 我做SLAM已经三年了.读书时初学SLAM,一开始无从下手,直到读了高博士的博客,茅塞顿开,渐入佳境.后来又买了他的<视觉SLAM十四讲>,常伴手边,直至毕业.几个月前找工作 ...
- Redis三种模式——主从复制,哨兵模式,集群
一.Redis主从复制作用 数据冗余:主从复制实现了数据的热备份,是持久化之外的一种数据冗余方式. 故障恢复:当主节点出现问题时,可以由从节点提供服务,实现快速的故障恢复:实际上是一种服务的冗余. 负 ...
- Redis_
Redis学习 Redis学习(一) 1. NoSQL的引言 NoSQL(Not Only SQL ),意即不仅仅是SQL, 泛指非关系型的数据库.Nosql这个技术门类,早期就有人提出,发展至200 ...
- OpenMP入门
OpenMP入门 前情提要:并行(parallel):需要多个运算核心同时完成 其中有多处理器和单处理器多核两种实现方式,其中差异如下: 同一芯片上的多核通信速度更快 同一芯片上的多核能耗更低 Ope ...
- VMware虚拟机安装基于Debian的统信UOS系统
统信操作系统(UOS)是一款美观易用.安全可靠的国产桌面操作系统.UOS预装了Google Chrome.WPS Office.搜狗输入法以及一系列原生应用.它既能让您体验到丰富多彩的娱乐生活,也可以 ...
- mysql5.7通过文件zip方式安装-九五小庞
为什么通过zip的方式进行安装 电脑上已安装过mysql数据库,想要再安装一个. 1.下载mysql安装包 直接找到mysql官网,在官网上下载zip安装包. https://downloads.my ...
- mysql8.0二进制安装遇到的问题
公司新项目需要用CentOS8.0以上的系统和mysql8.0:于是在虚拟机上开始操作测试: 一实验环境 1.系统版本:CentOS8.32.数据库版本:mysql-8.0.233.数据库下载链接:h ...
- 1269: 求最长上升子序列(LIS)
题目描述: LIS问题(longest increasing subsequence),即:最长上升子序列问题,是动态规划中一个比较经典的问题.具体描述为:一个有n个整数的序列:A[1],A[2], ...
- Python3.7+Tornado5.1.1+Celery3.1+Rabbitmq3.7.16实现异步队列任务
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_99 在之前的一篇文章中提到了用Django+Celery+Redis实现了异步任务队列,只不过消息中间件使用了redis,redi ...