- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

GaussDB(DWS)集群后台UDF进程异常二

耕心发表于 2023/06/02 15:05:51 2023/06/02

【摘要】由于配置文件unix_socket_directory导致javaUDF频繁重启且启动失败。

背景：使用UDF出现报错，后台查看集群UDF进程发现进程异常。本帖通过简单示例介绍UDF进程异常的排查和处理方式，示例中用到的数据、路径配置、主机名等信息均为测试环境信息。

影响：重要不紧急。UDF未启动，会导致使用javaUDF报错；导致cm在频繁重启UDF进程的时候，产生大量日志，消耗大量inode，严重情况会导致磁盘慢。

排查方法：

首先，通过以下命令查看集群UDF进程状态：

cm_ctl query -CvF复制

结果如下：

[  Fenced UDF State   ]

node         state
--------------------
1  ASG003    Down
2  host17967 Down
3  host17995 Down复制

发现UDF进程处于异常状态，查看cm_agent日志（在$GAUSSLOG/cm/cm_agent目录下）发现udf频繁拉起失败，内容如下：

2023-04-25 14:54:03.850 tid=41015 StartStop LOG: FENCED UDF START system(command: /DWS/manager/app/bin/gaussdb --fenced -k /opt/huawei/Bigdata/mppdb/mppdb_tmp -D /DWS/manager/log/Ruby/cm/cm_agent --ud6 >> "/DWS/manager/log/Ruby/cm/cm_agent/system_call-2023-04-25_145402-current.log" 2>&1 &).

通过查看UDF日志（在$GAUSSLOG/cm/cm_agent/pg_log/目录下）发现报错文件不存在，内容如下：

经确认，此路径与cm配置文件中的unix_socket_directory参数配置有关。此路径为$PGHOST的绝对路径，云上应为：/opt/dws/tmp；云下应为：/opt/huawei/Bigdata/mppdb/mppdb_tmp。

修改cm配置文件unix_socket_directory参数，（由于客户环境敏感，未尝试是否能通过kill cm_agent解决。）待客户重启集群后解决。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

GaussDB(DWS)集群后台UDF进程异常二

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品