一个HBase的RegionServer异常重启案例
问题现象
HBase集群RegionServer实例偶现重启。
分析过程
1.查看RegionServer的运行日志hbase-omm-regionserver-DataNode05.log,找到重启时间点的日志,发现只有实例启动的记录,并无收获;
2.查看RegionServer的健康检查日志hbase.log,也无更多信息;
3.查看nodeagent的日志,里面只有RegionServer被nodeagent拉起的记录;
4.通过以上信息,怀疑RegionServer进程的停止可能不是自身的问题,更像是被动的被杀死了;
5.查看messages,果然发现有进程被杀死的记录;
6.RegionServer重新启动会更新GC日志,以新的pid命名,查看RegionServer的GC日志名称,确定被OOM killer杀掉的进程确实为RegionServer;
7.通过messages日志看,应当是系统内存不足,Linux启动了自我保护机制,将RegionServer进程给kill掉了;
8.查看\osinfo\statistics\vmstat.txt日志,确定在异常时间点,系统内存不足;
9.查看\osinfo\statistics\loadavg.txt日志,发现在异常时间点附近,系统的负载骤然升高;
10.查看集群上RegionServer的重启记录,发现虽然重启的日期不固定,但是重启的时间点却都在03:36这个时间点,因此怀疑在这个时间点,节点上应该有其他任务再跑,导致系统负载升高,内存占用增大,使得系统杀死了RegionServer进程,之后nodeagent又将进程给重启启动。
关于OOM Killer
- 点赞
- 收藏
- 关注作者
评论(0)