- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Elastic数据迁移方法及注意事项

tacats 发表于 2019/01/17 11:16:11 2019/01/17

【摘要】需求ES集群Cluster_A里的数据（某个索引或某几个索引），需要迁移到另外一个ES集群Cluster_B中。环境Linux：Centos7 / Centos6.5/ Centos6.4Elastic：5.2.0总结的方法查询并导出数据拷贝ES物理目录/文件ES快照数据备份和恢复迁移方法分别进行以上方法的详细介绍：查询并导出数据理论通过ES提供的查询API，写各种程序，把数据导出csv，或...

需求

ES集群Cluster_A里的数据（某个索引或某几个索引），需要迁移到另外一个ES集群Cluster_B中。

环境

Linux：Centos7 / Centos6.5/ Centos6.4
Elastic：5.2.0

总结的方法

查询并导出数据
拷贝ES物理目录/文件
ES快照数据备份和恢复

迁移方法

分别进行以上方法的详细介绍：

查询并导出数据

理论

通过ES提供的查询API，写各种程序，把数据导出csv，或者把数据查询出来，直接入库到新的ES集群中。

实践

#coding=utf-8
 import osimport sysimport pyes
 
 
index_list = [
    ["index_A", "type_A"],
    ["index_B", "type_B"],
    ["index_C", "type_C"],
]
 
 
ES_URL = "http://192.168.1.1:9200/"NEW_ES_URL = "http://192.168.2.1:8200/"
 def main():
    for _index, _type in index_list:
        conn = pyes.es.ES(ES_URL)
        search = pyes.query.MatchAllQuery().search(bulk_read=10000)
        hits = conn.search(search, _index, _type, scan=True, scroll="30m", model=lambda _,hit: hit)
         
        conn2 = pyes.es.ES(NEW_ES_URL)
        count = 0 
        for hit in hits:
            conn2.index(hit['_source'], _index, _type, hit['_id'], bulk=True)
            count += 1
            if count % 10000 == 0:                print count
                conn2.flush()
        conn2.flush()
        conn2 = None
 
        conn = None
 
 if __name__ == '__main__':
    main()

注意事项

需要安装python的pyes模块，注意pyes的版本，此处的版本为：pyes.0.20.1
用了查询ES的scroll方式，也有一种直接通过ES的DSL查询语句用分页from和size查询，但是ES的分页查询到了千万级别之后，from就会慢的出奇，甚至报错，不信的同学去尝试吧，等着功亏一篑….
客户现场的数据级别是物理存储大概在5T(一个副本)，条数大概1百亿。现场使用该方法亲测之后，未解决ES迁移的问题。pyes在约到后面查询越慢，最后ES报错…..

总结

百万、千万级别条数的数据，可以尝试该方法。

拷贝ES物理目录/文件

理论

ES的文件存在磁盘中，把物理文件一模一样拷贝一份到新的集群环境中，达到数据迁移的效果。

实践

1. 找到ES的存储目录，一般可以到elasticsearch.yml中找到path.data的配置 
2. 集群下一般会有多个节点，所以ES的存储目录也就有多个 
 
3. 一般ES的存储目录下，会存储一个集群名字一样的文件夹，需要拷贝的就是这个文件夹. 
 
4. 环境如下：
旧集群：
集群名字：Cluster_A
分片数：6机器A：一个节点 192.168.1.1node0  数据存储目录：/opt/data1,/opt/data2
机器B：三个节点 192.168.1.2node1  数据存储目录：/opt/data1,/opt/data2
node2  数据存储目录：/opt/data3,/opt/data4
node3  数据存储目录：/opt/data5,/opt/data6
 
新的集群：
集群名字：Cluster_A
分片数：6机器A：一个节点 192.168.2.1node0  数据存储目录：/opt/data1,/opt/data2
机器B：三个节点 192.168.2.2node1  数据存储目录：/opt/data1,/opt/data2
node2  数据存储目录：/opt/data3,/opt/data4
node3  数据存储目录：/opt/data5,/opt/data6 
 
5. 迁移代码如下：
新集群机器A：192.168.2.1如下操作

scp –r root@192.168.1.1:/opt/data1/Cluster_A /opt/data1/
scp –r root@192.168.1.1:/opt/data2/Cluster_A /opt/data2/

 
新集群机器B：192.168.2.2如下操作

scp –r root@192.168.1.2:/opt/data1/Cluster_A /opt/data1/
scp –r root@192.168.1.2:/opt/data2/Cluster_A /opt/data2/
scp –r root@192.168.1.2:/opt/data3/Cluster_A /opt/data3/
scp –r root@192.168.1.2:/opt/data4/Cluster_A /opt/data4/
scp –r root@192.168.1.2:/opt/data5/Cluster_A /opt/data5/
scp –r root@192.168.1.2:/opt/data6/Cluster_A /opt/data6/

ES快照数据备份和恢复

理论

使用ES官网提供的快照备份方法，将旧集群ES的索引进行备份，拷贝备份出来的所有文件，在新的集群中进行恢复。

官网写的非常简单：先创建仓库(repository)，再往仓库里添加一个快照(snapshot)，查看备份状态，That’s all。但是实践需要麻烦很多了。

实践

1. 旧的集群备份出来的东西，需要拷贝到新集群机器上。解决两个问题：一是旧集群没有足够的空间存储这些东西；二是反正备份出来都需要拷贝到新的集群中。此处想到一个方法，将新集群机器的目录远程Mount到旧集群机器上。 
 
2. 挂载目录，2.1）和2.2）可以任选一种方式 
 
3. 使用sshfs进行挂载：// 在每台机器上安装sshfsyum install fuse sshfs 
// 每台机器上创建Mount共享目录mkdir /opt/backup_es 
// 旧集群的每台机器上挂载共享目录(分别挂载了新机器的/opt/data07目录到/opt/backup_es)sshfs root@192.168.2.1:/opt/data07 /opt/backup_es -o allow_other
sshfs root@192.168.2.2:/opt/data07 /opt/backup_es -o allow_other 
// 测试运行ES的用户是否有对共享目录的写权限sudo -u elastic touch /opt/backup_es 
// 在旧机器上将共享目录的权限付给ES的运行用户chown elastic:elastic -R /opt/backup_es 
2. 使用Mount nfs进行挂载：// 在新集群的机器上(192.168.2.1, 192.168.2.2)添加共享的文件夹和客户端可以访问的IP地址vi /etc/exports/opt/data07 192.168.1.1(rw,no_root_squash)/opt/data07 192.168.1.2(rw,no_root_squash) 
// 查看共享文件夹和exportfs -rv 
// 重启启动新集群机器的NFS服务services nfs restart 
// 旧集群的每台机器上创建共享目录mkdir /opt/backup_es 
// 旧集群机器上进行Mount挂载mount -t nfs 192.168.2.1:/opt/data07 /opt/backup_es
mount -t nfs 192.168.2.2:/opt/data07 /opt/backup_es 
// 在旧机器上将共享目录的权限付给ES的运行用户chown elastic:elastic -R /opt/backup_es 
3. 创建ES仓库// 创建ES仓库my_backuphttp://192.168.1.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：PUT _snapshot/my_backup 
{    "type": "fs", 
    "settings": {        "location": "/opt/backup_es",        "compress": true
    }
} 
// 查看仓库的状态http://192.168.1.1:9200/_snapshot

 4. 创建快照备份// 针对具体的index创建快照备份(可以指定1个快照1个索引，或1个快照多个索引)// 后面会依据快照的名称来进行恢复http://192.168.1.1:9200/PUT _snapshot/my_backup/snapshot_name_A
{    "indices": "index_A, index_B"}

成功之后，备份已经异步开始了。 
 
5. 查看备份的状态// 查看备份状态http://192.168.1.1:9200/_snapshot/my_backup/snapshot_name_A/_status细心的同学会看到ES会同时进行几个分片的备份，而且显示备份的数据情况。
有心的同学会看到，旧集群上共享的两个目录/opt/backup_es会均分备份出来的数据。这一点ES还是比较强大的，赞一个。应该还可以指定多个目录（作者没有试过，但是应该也是OK的，这样就可以挂载多个目录，解决磁盘空间不足的问题了） 
 
6. 最后，就是等，直至所有的的备份都完成。
备份完成后，查看旧集群每台机器的/opt/backup_es目录，查看备份出的东东。
取消挂载 
 
7. 在新集群中恢复// 在新集群每台机器上将共享目录的权限付给ES的运行用户chown elastic:elastic -R /opt/data07 
// 停止ES，设置elasticsearch.yml的参数
    path.repo: /opt/data07 
// 启动ES，在新集群创建仓库http://192.168.2.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：PUT _snapshot/my_backup 
{    "type": "fs", 
    "settings": {        "location": "/opt/data07",        "compress": true
    }
} 
8. 在新集群中恢复数据// 使用RESTful API进行备份的恢复http://192.168.1.1:9200/POST
_snapshot/my_backup/snapshot_name_A/_restore 
// 查看恢复的状态http://192.168.1.1:9200/GET
_snapshot/my_backup/snapshot_name_A/_status 
9. 等，直至恢复完成。

注意事项

索引很大，需要有足够的空间存储备份出来的数据，挂载磁盘和设置path.repo来解决该问题。
在简历仓库的时候，会报错，找不到快照目录/opt/backup_es
需要在elasticsearch.yml中设置path.repo: /opt/backup_es
挂载的磁盘需要赋权限，让ES的用户能读写。Sshfs的时候加上 -oallow_other；Mount的时候需要对目录进行赋权限chown
Mount nfs的时候需要注意配置：vi /etc/exports

/opt/data07192.168.1.1(rw,no_root_squash)/opt/data07192.168.1.2(rw,no_root_squash)

新集群中如果有索引和备份出来的索引有冲突（索引已存在），恢复不成功。
解决：可以将旧的索引重命名，然后导入新集群中。导入成功后，将两个索引建立一个别名。
恢复期间，整个集群会变成红色(集群不可用)，最好半夜的时候进行。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Elastic数据迁移方法及注意事项

需求

环境

总结的方法

迁移方法

查询并导出数据

理论

实践

注意事项

总结

拷贝ES物理目录/文件

理论

实践

ES快照数据备份和恢复

理论

实践

注意事项

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品