- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【案例分享】MapReduce Service OMS频繁主备倒换manager界面异常

南派三叔发表于 2021/06/26 17:17:05 2021/06/26

【摘要】【问题现象】集群安装完成后，界面频繁上报Manager主备倒换告警，根据现场工程师反馈每间隔1-2小时会发生一次主备倒换，短暂性导致界面异常，无法进行运维监控操作，如下所示：【可能原因】1、httpd服务异常2、pms资源异常3、底层软件异常4、其他原因等【分析过程】1、主备OMS发生倒换，优先看主备oms的ha.log日志《日志路径：/var/log/Bigdata/omm/oms/ha/...

【问题现象】

集群安装完成后，界面频繁上报Manager主备倒换告警，根据现场工程师反馈每间隔1-2小时会发生一次主备倒换，短暂性导致界面异常，无法进行运维监控操作，如下所示：

【可能原因】

1、httpd服务异常

2、pms资源异常

3、底层软件异常

4、其他原因等

【分析过程】

1、主备OMS发生倒换，优先看主备oms的ha.log日志《日志路径：/var/log/Bigdata/omm/oms/ha/runlog/ha.log》，一般都是因为某些oms依赖的服务出现异常，才会导致oms降备或者升主

2、从主oms的ha.log日志可以看出，2021-06-23 06:03:18主节点pms服务异常，触发主oms降备；

3、从主oms节点的pms_ha.log《日志路径：/var/log/Bigdata/omm/oms/pms/scriptlog/pms_ha.log》进一步确认2021-06-23 06:03:18这个时间点之前pms的运行状态，如下所示2021-06-23 06:03:18

4、接着需要看下主节点pms_script.log《日志路径：/var/log/Bigdata/omm/oms/pms/scriptlog/pms_script.log》,查看pms脚本执行情况

5、从上面日志可以看出，2021-06-23 06:02:19主节点pms堆内存溢出，进程被kill，导致pms服务异常

6、至此，可以判断是因为pms进程（pms进程只在主节点有）内存不足导致pms服务，进一步导致主备oms倒换。

7、查看主节点pms进程内存及运行情况，执行命令：ps -ef | grep pms，如下：pms最大内存：1024mb、最小内存：1024mb（默认值）

8、执行如下命令，查看当前集群oms节点配置情况，如下可以看出，集群当前节点配置为默认配置：0-32节点

ll /opt/huawei/Bigdata/om-server/om/etc/om/omscfg/

【解决方案】

1、确认是内存过小导致后，接下来可以通过优化Manager参数，将controller和pms的内存调大，在《产品文档》搜“根据集群节点数优化Manager配置”，将节点配置参数（0-32）调整至（101-500），此时pms会被调整到8192M

具体步骤：

a.使用PuTTY，以omm用户登录主管理节点。

b.执行以下命令，切换目录。

cd ${BIGDATA_HOME}/om-server/om/sbin

c.执行以下命令查看当前集群Manager相关配置。

sh oms_config_info.sh -q

d.执行以下命令指定当前集群的节点数。

命令格式：sh oms_config_info.sh -s 节点数

例如：

sh oms_config_info.sh -s 1000

根据界面提示，输入“y”：

The following configurations will be modified:
     Module       Parameter         Current               Target 
     Controller   controller.Xmx    4096m             =>  16384m
     Controller   controller.Xms    1024m             =>  8192m        Controller   controller.node.heartbeat.error.threshold     30000                      =>   60000                   
     Pms          pms.mem           8192m             =>  10240m 
Do you really want to do this operation? (y/n):

界面提示以下信息表示配置更新成功

配置更新过程中，OMS会自动重启。

相近数量的节点规模对应的Manager相关配置是通用的，例如100节点变为101节点，并没有新的配置项需要刷新。

2、执行完成后，观察一段时间看是否还会倒换

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【案例分享】MapReduce Service OMS频繁主备倒换manager界面异常

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品