GaussDB (DWS) 集群管理系列:CM异常检测框架
CM的异常检测框架支持载入异常检测插件,对实例进行异常检测,当前有四个异常检测插件:
内存检测插件
CreateTable插件
HANG检测插件
1. 异常检测框架参数
enable_abnormal_check
参数说明:
取值范围:on或者off,分别表示打开和关闭。
默认取值:on
2. 异常检测插件参数
异常检测插件的参数名称必须以abnormal_check_作为前缀,当前四个异常检测插件的参数配置如下表所示:
插件 | 插件配置参数名称 |
---|---|
内存检测插件 | abnormal_check_memory_usage = '{ "_name" : "libac_memory_usage.so", "check_interval" : "60", "usage_threshold" : "70", "check_count" : "10" }' |
GeneralTask插件 | abnormal_check_general_task = '{ "_name" : "libac_general_task.so", "check_interval" : "3600" }' |
CreateTable插件 | abnormal_check_create_table = '{ "_name" : "libac_create_table.so", "check_interval" : "150", "check_count" : "6" }' |
HANG检测插件 | abnormal_check_phony_dead = '{ "_name" : "libac_phony_dead.so", "check_interval" : "180", "phony_dead_effective_time" : "5", "cmserver_phony_dead_restart_interval" : "21600" }' |
异常检测插件参数说明: _name :异常检测插件的名字。 _enable : 异常检测插件的单独开关,默认为on,该参数省略时默认开启。
(1) 内存检测插件参数说明 check_interval 参数说明:cm_agent对实例进行内存检测的时间间隔。 取值范围:非负整型,单位为秒。 默认取值:60
usage_threshold 参数说明:cm_agent触发内存检测异常的磁盘空间使用率阈值。 取值范围:非负整型,表示磁盘使用率百分比。 默认取值:70
check_count 参数说明:cm_agent触发phony dead的内存检测连续异常次数的阈值。 取值范围:非负整型。 默认取值:10
(2) GeneralTask插件参数说明 check_interval 参数说明:cm_agent定期清理CN空闲链接的时间间隔。 取值范围:非负整型,单位为秒。 默认取值:3600
(3) CreateTable插件参数说明 check_interval 参数说明:cm_agent进行create table检测的时间间隔。 取值范围:非负整型,单位为秒。 默认取值:150
check_count 参数说明:cm_agent触发create table异常告警的create table连续异常次数的阈值。 取值范围:非负整型。 默认取值:6
(4) HANG检测插件参数说明 check_interval 参数说明:cm_agent检测实例异常状态的时间间隔。 取值范围:非负整型,单位为秒。 默认取值:180
phony_dead_effective_time 参数说明:cm_server连续收到同一实例上报hang的次数超过该参数,将仲裁实例重启;如果该实例为DN或GTM主机,将仲裁主备倒换。 取值范围:非负整型。 默认取值:5
cmserver_phony_dead_restart_interval 参数说明:cm_server通过hang检测机制仲裁实例重启后,再次触发hang检测仲裁的时间间隔。 取值范围:非负整型,单位为秒。 默认取值:21600(即六个小时)
- 点赞
- 收藏
- 关注作者
评论(0)