【案例分享】MapReduce Service元数据库服务DBservice备实例节点故障
【摘要】 基本原理简介 DBService是一个高可用性的关系型数据库存储系统,适用于存储小量数据(10GB左 右),比如:组件元数据。 DBService仅提供给集群内部的组件使用,提供数据存储、查询、删除等功能。结构 DBService组件在集群中采用主备模式部署两个DBServer实例,每个DBServer实例包 含三个模块:HA、Database和Floatip。
【问题现象】DBservice备实例故障,重启该实例后显示恢复中,然后继续显示故障,具体现象如下所示:
【可能原因】
1、故障实例节点磁盘空间不足;
2、节点网络故障;
3、实例配置文件问题;
4、免密问题;
【过程分析】
1、查看Dbserver的磁盘正常挂载,剩余空间充足。排除磁盘空间不足原因。
2、查看etc/hosts 正常,节点间互相Ping正常。节点间网络正常。
3、查看进程检查日志log,发现浮动ip异常,如下所示:
4、查看浮动ip日志log,发现脚本传参有问题
5、查看floatip服务端配置文件,配置文件异常
6、导致浮动ip配置文件异常的原因,通常有主备节点网络不通、OMM免密失效、SCP无法正常正常执行等原因,导致主备配置无法同步。
7、经确认主备实例网络正常、SCP操作正常,尝试从主DBservice节点使用omm ssh登录备DBservice节点,登录失败,如下所示:
由上图报错,可以看出是因为OMM密码过期,导致免密失效,主备间同步失败、进而导致实例故障。
【解决方案】
方案一:使用如下命令延长OMM用户密码有效期(临时规避)
chage -M '天数' omm
方案二:参考如下方式,设置OMM用户免密永久有效
1、打开/etc/shadow文件,删除红框里面的内容,保存退出
删除后如下所示:
2、查看修改后的OMM密码有效期,如下显示never表示永久有效
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)