【案例分享】MapReduce Service OMS频繁主备倒换manager界面异常

举报
南派三叔 发表于 2021/06/26 17:17:05 2021/06/26
【摘要】 【问题现象】集群安装完成后,界面频繁上报Manager主备倒换告警,根据现场工程师反馈每间隔1-2小时会发生一次主备倒换,短暂性导致界面异常,无法进行运维监控操作,如下所示:【可能原因】1、httpd服务异常2、pms资源异常3、底层软件异常4、其他原因等【分析过程】1、主备OMS发生倒换,优先看主备oms的ha.log日志《日志路径:/var/log/Bigdata/omm/oms/ha/...

【问题现象】

集群安装完成后,界面频繁上报Manager主备倒换告警,根据现场工程师反馈每间隔1-2小时会发生一次主备倒换,短暂性导致界面异常,无法进行运维监控操作,如下所示:

【可能原因】

1、httpd服务异常

2、pms资源异常

3、底层软件异常

4、其他原因等

【分析过程】

1、主备OMS发生倒换,优先看主备oms的ha.log日志《日志路径:/var/log/Bigdata/omm/oms/ha/runlog/ha.log》,一般都是因为某些oms依赖的服务出现异常,才会导致oms降备或者升主

from clipboard

2、从主oms的ha.log日志可以看出,2021-06-23 06:03:18主节点pms服务异常,触发主oms降备;

3、从主oms节点的pms_ha.log《日志路径:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_ha.log》进一步确认2021-06-23 06:03:18这个时间点之前pms的运行状态,如下所示2021-06-23 06:03:18

from clipboard

4、接着需要看下主节点pms_script.log《日志路径:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_script.log》,查看pms脚本执行情况

from clipboard

5、从上面日志可以看出,2021-06-23 06:02:19主节点pms堆内存溢出,进程被kill,导致pms服务异常

6、至此,可以判断是因为pms进程(pms进程只在主节点有)内存不足导致pms服务,进一步导致主备oms倒换。

7、查看主节点pms进程内存及运行情况,执行命令:ps -ef | grep pms,如下:pms最大内存:1024mb、最小内存:1024mb(默认值)

from clipboard

8、执行如下命令,查看当前集群oms节点配置情况,如下可以看出,集群当前节点配置为默认配置:0-32节点

ll /opt/huawei/Bigdata/om-server/om/etc/om/omscfg/

from clipboard

【解决方案】

1、确认是内存过小导致后,接下来可以通过优化Manager参数,将controller和pms的内存调大,在《产品文档》搜“根据集群节点数优化Manager配置”,将节点配置参数(0-32)调整至(101-500),此时pms会被调整到8192M

具体步骤:

     a.使用PuTTY,以omm用户登录主管理节点。

     b.执行以下命令,切换目录。

     cd ${BIGDATA_HOME}/om-server/om/sbin

     c.执行以下命令查看当前集群Manager相关配置。

     sh oms_config_info.sh -q

     d.执行以下命令指定当前集群的节点数。

     命令格式:sh oms_config_info.sh -s 节点数

    例如:

    sh oms_config_info.sh -s 1000

    根据界面提示,输入“y”

The following configurations will be modified:
     Module       Parameter         Current               Target 
     Controller   controller.Xmx    4096m             =>  16384m
     Controller   controller.Xms    1024m             =>  8192m        Controller   controller.node.heartbeat.error.threshold     30000                      =>   60000                   
     Pms          pms.mem           8192m             =>  10240m 
Do you really want to do this operation? (y/n):

界面提示以下信息表示配置更新成功

配置更新过程中,OMS会自动重启。

相近数量的节点规模对应的Manager相关配置是通用的,例如100节点变为101节点,并没有新的配置项需要刷新。

2、执行完成后,观察一段时间看是否还会倒换

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。