Elastic数据迁移方法及注意事项

需求

ES集群Cluster_A里的数据（某个索引或某几个索引），需要迁移到另外一个ES集群Cluster_B中。

环境

Linux：Centos7 / Centos6.5/ Centos6.4
Elastic：5.2.0

总结的方法

查询并导出数据
拷贝ES物理目录/文件
ES快照数据备份和恢复

迁移方法

分别进行以上方法的详细介绍：

查询并导出数据

理论

通过ES提供的查询API，写各种程序，把数据导出csv，或者把数据查询出来，直接入库到新的ES集群中。

实践

#coding=utf-8

import os

import sys

import pyes

index_list = [

    ["index_A", "type_A"],

    ["index_B", "type_B"],

    ["index_C", "type_C"],

]

ES_URL = "http://192.168.1.1:9200/"

NEW_ES_URL = "http://192.168.2.1:8200/"

def main():

    for _index, _type in index_list:

        conn = pyes.es.ES(ES_URL)

        search = pyes.query.MatchAllQuery().search(bulk_read=10000)

        hits = conn.search(search, _index, _type, scan=True, scroll="30m", model=lambda _,hit: hit)

        conn2 = pyes.es.ES(NEW_ES_URL)

        count = 0

        for hit in hits:

            conn2.index(hit['_source'], _index, _type, hit['_id'], bulk=True)

            count += 1

            if count % 10000 == 0:

                print count

                conn2.flush()

        conn2.flush()

        conn2 = None

        conn = None

if __name__ == '__main__':

    main()

注意事项

需要安装python的pyes模块，注意pyes的版本，此处的版本为：pyes.0.20.1
用了查询ES的scroll方式，也有一种直接通过ES的DSL查询语句用分页from和size查询，但是ES的分页查询到了千万级别之后，from就会慢的出奇，甚至报错，不信的同学去尝试吧，等着功亏一篑….
客户现场的数据级别是物理存储大概在5T(一个副本)，条数大概1百亿。现场使用该方法亲测之后，未解决ES迁移的问题。pyes在约到后面查询越慢，最后ES报错…..

总结

百万、千万级别条数的数据，可以尝试该方法。

拷贝ES物理目录/文件

理论

ES的文件存在磁盘中，把物理文件一模一样拷贝一份到新的集群环境中，达到数据迁移的效果。

实践

1. 找到ES的存储目录，一般可以到elasticsearch.yml中找到path.data的配置

2. 集群下一般会有多个节点，所以ES的存储目录也就有多个

3. 一般ES的存储目录下，会存储一个集群名字一样的文件夹，需要拷贝的就是这个文件夹.

4. 环境如下：

旧集群：

集群名字：Cluster_A

分片数：6

机器A：一个节点 192.168.1.1

node0  数据存储目录：/opt/data1,/opt/data2

机器B：三个节点 192.168.1.2

node1  数据存储目录：/opt/data1,/opt/data2

node2  数据存储目录：/opt/data3,/opt/data4

node3  数据存储目录：/opt/data5,/opt/data6

新的集群：

集群名字：Cluster_A

分片数：6

机器A：一个节点 192.168.2.1

node0  数据存储目录：/opt/data1,/opt/data2

机器B：三个节点 192.168.2.2

node1  数据存储目录：/opt/data1,/opt/data2

node2  数据存储目录：/opt/data3,/opt/data4

node3  数据存储目录：/opt/data5,/opt/data6

5. 迁移代码如下：

新集群机器A：192.168.2.1如下操作

scp –r root@192.168.1.1:/opt/data1/Cluster_A /opt/data1/

scp –r root@192.168.1.1:/opt/data2/Cluster_A /opt/data2/

新集群机器B：192.168.2.2如下操作

scp –r root@192.168.1.2:/opt/data1/Cluster_A /opt/data1/

scp –r root@192.168.1.2:/opt/data2/Cluster_A /opt/data2/

scp –r root@192.168.1.2:/opt/data3/Cluster_A /opt/data3/

scp –r root@192.168.1.2:/opt/data4/Cluster_A /opt/data4/

scp –r root@192.168.1.2:/opt/data5/Cluster_A /opt/data5/

scp –r root@192.168.1.2:/opt/data6/Cluster_A /opt/data6/

ES快照数据备份和恢复

理论

使用ES官网提供的快照备份方法，将旧集群ES的索引进行备份，拷贝备份出来的所有文件，在新的集群中进行恢复。

官网写的非常简单：先创建仓库(repository)，再往仓库里添加一个快照(snapshot)，查看备份状态，That’s all。但是实践需要麻烦很多了。

实践

1. 旧的集群备份出来的东西，需要拷贝到新集群机器上。解决两个问题：一是旧集群没有足够的空间存储这些东西；二是反正备份出来都需要拷贝到新的集群中。此处想到一个方法，将新集群机器的目录远程Mount到旧集群机器上。

2. 挂载目录，2.1）和2.2）可以任选一种方式

3. 使用sshfs进行挂载：

// 在每台机器上安装sshfs

yum install fuse sshfs

// 每台机器上创建Mount共享目录

mkdir /opt/backup_es

// 旧集群的每台机器上挂载共享目录(分别挂载了新机器的/opt/data07目录到/opt/backup_es)

sshfs root@192.168.2.1:/opt/data07 /opt/backup_es -o allow_other

sshfs root@192.168.2.2:/opt/data07 /opt/backup_es -o allow_other

// 测试运行ES的用户是否有对共享目录的写权限

sudo -u elastic touch /opt/backup_es

// 在旧机器上将共享目录的权限付给ES的运行用户

chown elastic:elastic -R /opt/backup_es

2. 使用Mount nfs进行挂载：

// 在新集群的机器上(192.168.2.1, 192.168.2.2)添加共享的文件夹和客户端可以访问的IP地址

vi /etc/exports

/opt/data07 192.168.1.1(rw,no_root_squash)

/opt/data07 192.168.1.2(rw,no_root_squash)

// 查看共享文件夹和

exportfs -rv

// 重启启动新集群机器的NFS服务

services nfs restart

// 旧集群的每台机器上创建共享目录

mkdir /opt/backup_es

// 旧集群机器上进行Mount挂载

mount -t nfs 192.168.2.1:/opt/data07 /opt/backup_es

mount -t nfs 192.168.2.2:/opt/data07 /opt/backup_es

// 在旧机器上将共享目录的权限付给ES的运行用户

chown elastic:elastic -R /opt/backup_es

3. 创建ES仓库

// 创建ES仓库my_backup

http://192.168.1.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：

PUT _snapshot/my_backup

{

    "type": "fs",

    "settings": {

        "location": "/opt/backup_es",

        "compress": true

    }

}

// 查看仓库的状态

http://192.168.1.1:9200/_snapshot

4. 创建快照备份

// 针对具体的index创建快照备份(可以指定1个快照1个索引，或1个快照多个索引)

// 后面会依据快照的名称来进行恢复

http://192.168.1.1:9200/

PUT _snapshot/my_backup/snapshot_name_A

{

    "indices": "index_A, index_B"

}

成功之后，备份已经异步开始了。

5. 查看备份的状态

// 查看备份状态

http://192.168.1.1:9200/_snapshot/my_backup/snapshot_name_A/_status

细心的同学会看到ES会同时进行几个分片的备份，而且显示备份的数据情况。

有心的同学会看到，旧集群上共享的两个目录/opt/backup_es会均分备份出来的数据。这一点ES还是比较强大的，赞一个。应该还可以指定多个目录（作者没有试过，但是应该也是OK的，这样就可以挂载多个目录，解决磁盘空间不足的问题了）

6. 最后，就是等，直至所有的的备份都完成。

备份完成后，查看旧集群每台机器的/opt/backup_es目录，查看备份出的东东。

取消挂载

7. 在新集群中恢复

// 在新集群每台机器上将共享目录的权限付给ES的运行用户

chown elastic:elastic -R /opt/data07

// 停止ES，设置elasticsearch.yml的参数

    path.repo: /opt/data07

// 启动ES，在新集群创建仓库

http://192.168.2.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：

PUT _snapshot/my_backup

{

    "type": "fs",

    "settings": {

        "location": "/opt/data07",

        "compress": true

    }

}

8. 在新集群中恢复数据

// 使用RESTful API进行备份的恢复

http://192.168.1.1:9200/

POST

_snapshot/my_backup/snapshot_name_A/_restore

// 查看恢复的状态

http://192.168.1.1:9200/

GET

_snapshot/my_backup/snapshot_name_A/_status

9. 等，直至恢复完成。

注意事项

索引很大，需要有足够的空间存储备份出来的数据，挂载磁盘和设置path.repo来解决该问题。
在简历仓库的时候，会报错，找不到快照目录/opt/backup_es
需要在elasticsearch.yml中设置path.repo: /opt/backup_es
挂载的磁盘需要赋权限，让ES的用户能读写。Sshfs的时候加上 -oallow_other；Mount的时候需要对目录进行赋权限chown
Mount nfs的时候需要注意配置：vi /etc/exports

/opt/data07192.168.1.1(rw,no_root_squash)

/opt/data07192.168.1.2(rw,no_root_squash)

新集群中如果有索引和备份出来的索引有冲突（索引已存在），恢复不成功。
解决：可以将旧的索引重命名，然后导入新集群中。导入成功后，将两个索引建立一个别名。
恢复期间，整个集群会变成红色(集群不可用)，最好半夜的时候进行。

Elastic数据迁移方法及注意事项的更多相关文章

一种HBase表数据迁移方法的优化
1.背景调研: 目前存在的hbase数据迁移主要分如下几类: 根据上图,可以看出: 其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷 ...
centos下mysql数据迁移方法
第一种: 原始数据库不需要重新安装: 默认mysql会安装在/var/lib/mysql这里,若将数据迁移到/data/mysql目录下,步骤如下: 1.停止mysql服务 2.#cp /var/li ...
elasticsearch5.0集群大数据量迁移方法及注意事项
当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticd ...
oracle常用的数据迁移方法
源地址:http://wenku.baidu.com/link?url=lI6UYpvDs_y8ku6DytEZLl4GSJjQ0GAGPvv8txrbRoQKgqzTCMAfBZI5mn9t-KQk ...
Oracle数据泵数据迁移
1 表空间查询 1.1 检查用户与表空间对应情况 select username,default_tablespace from dba_users; 1.2 查看临时表空间 select ta ...
解决 MVC4 Code First 数据迁移数据库发生更改导致调试失败解决方法（二）
文章转载自:http://www.cnblogs.com/amoniyibeizi/p/4486617.html 前几天学MVC过程中,遇到更改Model类以后,运行程序就会出现数据已更改的问题导致调 ...
使用neo4j图数据库的import工具导入数据 -方法和注意事项
背景最近我在尝试存储知识图谱的过程中,接触到了Neo4j图数据库,这里我摘取了一段Neo4j的简介: Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中.它是一个嵌 ...
Hbase实用技巧：全量+增量数据的迁移方法
摘要:本文介绍了一种Hbase迁移的方法,可以在一些特定场景下运用. 背景在Hbase使用过程中,使用的Hbase集群经常会因为某些原因需要数据迁移.大多数情况下,可以跟用户协商用离线的方式进行迁移 ...
Django添加模型无法数据迁移解决方法
用Django开发一款博客,按照教程一步步写下来,发现当我创建一个模型blogpost的时候,使用数据迁移 python manage.py migrate 提示 Operations to perf ...

随机推荐

mysql服务启动、停止、重启
如何启动/停止/重启MySQL 一.启动方式 1.使用 service 启动:service mysqld start 2.使用 mysqld 脚本启动:/etc/inint.d/mysqld sta ...
GC调优在Spark应用中的实践[转]
作者:仲浩出处:<程序员>电子刊5月B 摘要:Spark立足内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制.与此同时,它也兼容批处理和流式处理,对于程序 ...
React Native常用组件之ScrollView
1. 两个要点 1.1 ScrollView必须有一个确定的高度才能正常工作它实际上所做的就是将一系列不确定高度的子组件装进一个确定高度的容器(通过滚动操作) 通常有两种做法: 第一种: 直接给该S ...
Java知多少（91）对话框
对话框是为了人机对话过程提供交互模式的工具.应用程序通过对话框,或给用户提供信息,或从用户获得信息.对话框是一个临时窗口,可以在其中放置用于得到用户输入的控件.在Swing中,有两个对话框类,它们是J ...
gSOAP 在windows下的安装与使用（mingw32）
gSOAP是一个绑定SOAP/XML到C/C++语言的工具,使用它可以简单快速地开发出SOAP/XML的服务器端和客户端.由于 gSOAP具有相当不错的兼容性,通过gSOAP,我们就可以调用由Jav ...
plsql 常用函数-转
PLSQL常用函数 1)处理字符的函数 || 或 CONCAT---并置运算符. 格式∶CONCAT(STRING1, STRING2) 例:’ABC’|| ’DE’=’ABCDE’ CONCAT(‘ ...
html5游戏开发-简单tiger机
http://blog.csdn.net/lufy_legend/article/details/7021965
[DL] *Deep Learning for Industry - Wang Yi
Link: 分布式机器学习系列讲座 - 04 Deep Learning WANG Yi. https://cxwangyi.wordpress.com/ https://www.zhihu.com/ ...
[Linux] ssh-key 公钥文件格式
SSH 协议(Secure Shell 协议)最初在 1995 年由芬兰的 Tatu Ylönen 设计开发,由 IETF(Internet Engineering Task Force)的网络工作小 ...
SQL Server 2012 R2升级到SQL Server 2016无法正常启动数据库服务解决方案
原定周末把公司的TFS升级到2018,由于TFS 2018需要SQL Server至少是2016以上版本,所以还需要将原来的SQL Server 2012 R2一并升级.今天早上负责的同事告诉我升级失 ...

Elastic数据迁移方法及注意事项

需求

环境

总结的方法

迁移方法

查询并导出数据

理论

实践

注意事项

总结

拷贝ES物理目录/文件

理论

实践

ES快照数据备份和恢复

理论

实践

注意事项

Elastic数据迁移方法及注意事项的更多相关文章

随机推荐

热门专题