DWS管控面之过期指标

举报
德莱文 发表于 2022/11/03 18:16:13 2022/11/03
【摘要】 欢迎DMS的小伙伴给建议

【问题现象】一般会在监控面板-》监控-》主机监控中提示XXX指标已过期,请排查

【常见版本】8.1.1及更早版本

【定位思路】过期指标-旧数据,无最新数据,总体来说两个定位方向

方向一、指标采集问题

指标采集问题就是停止采集或者采集数据时间不对

1、停止采集首先排查dms-agent服务进程是否正常,如果不存在服务进程,则服务宕机;如果存在服务进程,但是不存在agent_service.log(/home/Ruby/dms_workdir/log)日志文件,则服务异常,需要查看initial.log中初始化是否完成,是否有报错,具体报错具体分析。

2、其次排查dms-agent服务的日志是否正常,如果出现agent_service.log日志没有更新,则服务宕机,此时由于守护进程服务进程有可能存在;如果出现agent_service.log日志有大量指标ERR信息,则服务异常。

3、如果服务正常且日志也正常,则需要看plugin.yml(/home/Ruby/dms_workdir/config)中具体指标是否开启(true or false)。不开启也导致数据不采集。

4、采集数据时间不对是指上报时间滞后,此时需要检查几个节点的时间同步(NTP)是否有问题。同时需注意时间不同步会导致agent服务无法启动。

5、最后,节点(CCN、CN)最好都去检查,根据经验有个别节点异常也会影响采集,比如dms_workdir目录异常或里面的配置文件缺失

方向二、数据上报问题

数据上报问题就是停止上报或者上报数据比较慢(hang)

1、停止上报,dms-collection检查pod状态,状态异常重新拉起服务,状态正常进入pod查看日志(关注哪个指标就搜索哪个指标)

2、日志正常上报,说明上报数据比较慢,比较慢的原因是由于采集频率较高,数据未老化,清理表即可。

3、表清理参考https://bbs.huaweicloud.com/blogs/382893

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。