[HCS]DWS集群下发失败:失败任务RdsDownloadPackageTask

举报
农夫山泉 发表于 2025/06/21 17:00:20 2025/06/21
【摘要】 【HCS】数仓DWS因为网络漏配置导致集群下发失败问题定位过程

1、【HCS850】跨region集群其中一个region下发集群失败,页面报错主任务为“创建虚拟机失败”

21.4.JPG


2、登录普罗在cdk页面的任务管理中查看失败任务为到obs下载包失败任务:RdsDownloadPackageTask,并同时获取失败任务jobid和运行任务controller容器名称

21.5.JPG

3、根据第二步获取的信息登录执行容器查看失败日志,或者登录任一下发失败节点查看直接日志:登录方法见第三章节第二步骤:https://bbs.huaweicloud.com/blogs/427974

/home/Ruby/log/downloadPackage.log

报错日志发现访问obs失败,可以验证下发失败的实例节点到obs网络是否通畅,ping 对应ip通,但是curl -kv ip或obs域名:443  不通

21.6.JPG

4、拉网络人员定位,发现这个步骤漏配置导致(双AZ访问同一个obs地址),解决以后重试通过

VXLAN 隧道配置,需要在全局视图下配置vxlan tunnel-status track exact-route

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。