DWS管控面之过期指标
【问题现象】一般会在监控面板-》监控-》主机监控中提示XXX指标已过期,请排查
【常见版本】8.1.1及更早版本
【定位思路】过期指标-旧数据,无最新数据,总体来说两个定位方向
方向一、指标采集问题
指标采集问题就是停止采集或者采集数据时间不对
1、停止采集首先排查dms-agent服务进程是否正常,如果不存在服务进程,则服务宕机;如果存在服务进程,但是不存在agent_service.log(/home/Ruby/dms_workdir/log)日志文件,则服务异常,需要查看initial.log中初始化是否完成,是否有报错,具体报错具体分析。
2、其次排查dms-agent服务的日志是否正常,如果出现agent_service.log日志没有更新,则服务宕机,此时由于守护进程服务进程有可能存在;如果出现agent_service.log日志有大量指标ERR信息,则服务异常。
3、如果服务正常且日志也正常,则需要看plugin.yml(/home/Ruby/dms_workdir/config)中具体指标是否开启(true or false)。不开启也导致数据不采集。
4、采集数据时间不对是指上报时间滞后,此时需要检查几个节点的时间同步(NTP)是否有问题。同时需注意时间不同步会导致agent服务无法启动。
5、最后,节点(CCN、CN)最好都去检查,根据经验有个别节点异常也会影响采集,比如dms_workdir目录异常或里面的配置文件缺失。
方向二、数据上报问题
数据上报问题就是停止上报或者上报数据比较慢(hang)
1、停止上报,dms-collection检查pod状态,状态异常重新拉起服务,状态正常进入pod查看日志(关注哪个指标就搜索哪个指标)
2、日志正常上报,说明上报数据比较慢,比较慢的原因是由于采集频率较高,数据未老化,清理表即可。
3、表清理参考https://bbs.huaweicloud.com/blogs/382893
- 点赞
- 收藏
- 关注作者
评论(0)