【案例分享】MapReduce Service元数据库服务DBservice备实例节点故障

举报
扑哧君 发表于 2021/05/21 18:00:03 2021/05/21
【摘要】 基本原理简介 DBService是一个高可用性的关系型数据库存储系统,适用于存储小量数据(10GB左 右),比如:组件元数据。 DBService仅提供给集群内部的组件使用,提供数据存储、查询、删除等功能。结构 DBService组件在集群中采用主备模式部署两个DBServer实例,每个DBServer实例包 含三个模块:HA、Database和Floatip。

【问题现象】DBservice备实例故障,重启该实例后显示恢复中,然后继续显示故障,具体现象如下所示:

【可能原因】

1、故障实例节点磁盘空间不足;

2、节点网络故障;

3、实例配置文件问题;

4、免密问题;

【过程分析】

1、查看Dbserver的磁盘正常挂载,剩余空间充足。排除磁盘空间不足原因。

2、查看etc/hosts 正常,节点间互相Ping正常。节点间网络正常。

3、查看进程检查日志log,发现浮动ip异常,如下所示:

4、查看浮动ip日志log,发现脚本传参有问题

5、查看floatip服务端配置文件,配置文件异常

6、导致浮动ip配置文件异常的原因,通常有主备节点网络不通、OMM免密失效、SCP无法正常正常执行等原因,导致主备配置无法同步。

7、经确认主备实例网络正常、SCP操作正常,尝试从主DBservice节点使用omm ssh登录备DBservice节点,登录失败,如下所示:

由上图报错,可以看出是因为OMM密码过期,导致免密失效,主备间同步失败、进而导致实例故障。

【解决方案】

方案一:使用如下命令延长OMM用户密码有效期(临时规避)

chage -M '天数' omm

方案二:参考如下方式,设置OMM用户免密永久有效

1、打开/etc/shadow文件,删除红框里面的内容,保存退出

删除后如下所示:

2、查看修改后的OMM密码有效期,如下显示never表示永久有效

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。