【案例分享】MapReduce Service OMS频繁主备倒换manager界面异常
【问题现象】
集群安装完成后,界面频繁上报Manager主备倒换告警,根据现场工程师反馈每间隔1-2小时会发生一次主备倒换,短暂性导致界面异常,无法进行运维监控操作,如下所示:
【可能原因】
1、httpd服务异常
2、pms资源异常
3、底层软件异常
4、其他原因等
【分析过程】
1、主备OMS发生倒换,优先看主备oms的ha.log日志《日志路径:/var/log/Bigdata/omm/oms/ha/runlog/ha.log》,一般都是因为某些oms依赖的服务出现异常,才会导致oms降备或者升主
2、从主oms的ha.log日志可以看出,2021-06-23 06:03:18主节点pms服务异常,触发主oms降备;
3、从主oms节点的pms_ha.log《日志路径:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_ha.log》进一步确认2021-06-23 06:03:18这个时间点之前pms的运行状态,如下所示2021-06-23 06:03:18
4、接着需要看下主节点pms_script.log《日志路径:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_script.log》,查看pms脚本执行情况
5、从上面日志可以看出,2021-06-23 06:02:19主节点pms堆内存溢出,进程被kill,导致pms服务异常
6、至此,可以判断是因为pms进程(pms进程只在主节点有)内存不足导致pms服务,进一步导致主备oms倒换。
7、查看主节点pms进程内存及运行情况,执行命令:ps -ef | grep pms,如下:pms最大内存:1024mb、最小内存:1024mb(默认值)
8、执行如下命令,查看当前集群oms节点配置情况,如下可以看出,集群当前节点配置为默认配置:0-32节点
ll /opt/huawei/Bigdata/om-server/om/etc/om/omscfg/
【解决方案】
1、确认是内存过小导致后,接下来可以通过优化Manager参数,将controller和pms的内存调大,在《产品文档》搜“根据集群节点数优化Manager配置”,将节点配置参数(0-32)调整至(101-500),此时pms会被调整到8192M
具体步骤:
a.使用PuTTY,以omm用户登录主管理节点。
b.执行以下命令,切换目录。
cd ${BIGDATA_HOME}/om-server/om/sbin
c.执行以下命令查看当前集群Manager相关配置。
sh oms_config_info.sh -q
d.执行以下命令指定当前集群的节点数。
命令格式:sh oms_config_info.sh -s 节点数
例如:
sh oms_config_info.sh -s 1000
根据界面提示,输入“y”:
The following configurations will be modified:
Module Parameter Current Target
Controller controller.Xmx 4096m => 16384m
Controller controller.Xms 1024m => 8192m Controller controller.node.heartbeat.error.threshold 30000 => 60000
Pms pms.mem 8192m => 10240m
Do you really want to do this operation? (y/n):
界面提示以下信息表示配置更新成功
配置更新过程中,OMS会自动重启。
相近数量的节点规模对应的Manager相关配置是通用的,例如100节点变为101节点,并没有新的配置项需要刷新。
2、执行完成后,观察一段时间看是否还会倒换
- 点赞
- 收藏
- 关注作者
评论(0)