GaussDB(DWS)集群后台UDF进程异常二
背景:使用UDF出现报错,后台查看集群UDF进程发现进程异常。本帖通过简单示例介绍UDF进程异常的排查和处理方式,示例中用到的数据、路径配置、主机名等信息均为测试环境信息。
影响:重要不紧急。UDF未启动,会导致使用javaUDF报错;导致cm在频繁重启UDF进程的时候,产生大量日志,消耗大量inode,严重情况会导致磁盘慢。
排查方法:
首先,通过以下命令查看集群UDF进程状态:
cm_ctl query -CvF复制
结果如下:
[ Fenced UDF State ]
node state
--------------------
1 ASG003 Down
2 host17967 Down
3 host17995 Down复制
发现UDF进程处于异常状态,查看cm_agent日志(在$GAUSSLOG/cm/cm_agent目录下)发现udf频繁拉起失败,内容如下:
2023-04-25 14:54:03.850 tid=41015 StartStop LOG: FENCED UDF START system(command: /DWS/manager/app/bin/gaussdb --fenced -k /opt/huawei/Bigdata/mppdb/mppdb_tmp -D /DWS/manager/log/Ruby/cm/cm_agent --ud6 >> "/DWS/manager/log/Ruby/cm/cm_agent/system_call-2023-04-25_145402-current.log" 2>&1 &).
通过查看UDF日志(在$GAUSSLOG/cm/cm_agent/pg_log/目录下)发现报错文件不存在,内容如下:
经确认,此路径与cm配置文件中的unix_socket_directory参数配置有关。此路径为$PGHOST的绝对路径,云上应为:/opt/dws/tmp;云下应为:/opt/huawei/Bigdata/mppdb/mppdb_tmp。
修改cm配置文件unix_socket_directory参数,(由于客户环境敏感,未尝试是否能通过kill cm_agent解决。)待客户重启集群后解决。
- 点赞
- 收藏
- 关注作者
评论(0)