GaussDB(DWS)集群后台UDF进程异常二

举报
耕心 发表于 2023/06/02 15:05:51 2023/06/02
【摘要】 由于配置文件unix_socket_directory导致javaUDF频繁重启且启动失败。

背景:使用UDF出现报错,后台查看集群UDF进程发现进程异常。本帖通过简单示例介绍UDF进程异常的排查和处理方式,示例中用到的数据、路径配置、主机名等信息均为测试环境信息。

影响:重要不紧急。UDF未启动,会导致使用javaUDF报错;导致cm在频繁重启UDF进程的时候,产生大量日志,消耗大量inode,严重情况会导致磁盘慢。

排查方法:

首先,通过以下命令查看集群UDF进程状态:

cm_ctl query -CvF复制

结果如下:

[  Fenced UDF State   ]

node         state
--------------------
1  ASG003    Down
2  host17967 Down
3  host17995 Down复制

发现UDF进程处于异常状态,查看cm_agent日志(在$GAUSSLOG/cm/cm_agent目录下)发现udf频繁拉起失败,内容如下:

2023-04-25 14:54:03.850 tid=41015 StartStop LOG: FENCED UDF START system(command: /DWS/manager/app/bin/gaussdb --fenced -k /opt/huawei/Bigdata/mppdb/mppdb_tmp -D /DWS/manager/log/Ruby/cm/cm_agent --ud6 >> "/DWS/manager/log/Ruby/cm/cm_agent/system_call-2023-04-25_145402-current.log" 2>&1 &).

通过查看UDF日志(在$GAUSSLOG/cm/cm_agent/pg_log/目录下)发现报错文件不存在,内容如下:cke_11993.png


经确认,此路径与cm配置文件中的unix_socket_directory参数配置有关。此路径为$PGHOST的绝对路径,云上应为:/opt/dws/tmp;云下应为:/opt/huawei/Bigdata/mppdb/mppdb_tmp。


修改cm配置文件unix_socket_directory参数,(由于客户环境敏感,未尝试是否能通过kill cm_agent解决。)待客户重启集群后解决。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。