DWS集群创建失败场景-No IP addresses available on network xxxxx

举报
金哲 发表于 2021/06/21 22:57:25 2021/06/21
【摘要】 dws集群创建失败,在RdsCreateInstanceTask任务处失败,同时日志中报BMS.3005 No IP addresses available on network xxxxx

【关 键 词】:集群创建失败,DWS

【适用版本】:802版本

【故障类型】:较多节点集群创建或扩容,示例中为60节点以上

【问题现象】:console界面创建或者扩容,在33%时失败

【告警信息】:后台日志信息BMS.3005 No IP addresses available on network xxxxx

分析过程:

1.报错信息如下,查看有关键字,BMS.3005 No IP addresses available on network xxxx,其中xxxx网络id,可以在serviceOM中查看具体的网络,算出ip不足,只有61个ip,但是当节点超过时则没有ip资


2.登录cloudscope->cdk-->服务管理->dwscontroller服务查看涉及的ctype,btype网段如下24位,0,4,8,12分别为26位掩码

和规划的网络不符合,规划如下:

应该生成19位子网,但是生成的都是26位,导致在节点超过60的时候,ip资源不够

分析结论:

并查看相关的代码得出结论,HCSD代码中设置了DWS分配的资源租户vpc子网掩码为24位,去除网络号后可用的为26位掩码。导致网段生成有问题,此处需要手动修改cdk相关参数,重新下发dws集群

解决方案:

1.ctype,btype按规划的为17位,对应补充,0,4,8,12 分别分四段19位网段,修改如下图所示的参数

   subnet.cidr.cType12,subnet.cidr.cType8,subnet.cidr.cType4,subnet.cidr.cType0 均分ctype,19位ip地址

   subnet.cidr.bType0,subnet.cidr.bType4,subnet.cidr.bType8,subnet.cidr.bType12 均分btype,19位ip地址

   vpc.cidr.bType,vpc.cidr.cType 按规划值填写

2.修改 mgr.portEgressIp 修改中间两个ip地址,对应规划ctypebtypeip

3.修改mgr.portIngressIp中间两个ip地址,对应修改为规划的ctypebtypeip

4.修改完成后,下一步升级,确认仅修改对应以上参数,等升级完成

5.让修改参数立即生效

    1)登陆容器 EICommon-Region-Master-03/EICommon-Region-Master-02/EICommon-Region-Master-01任意一个

     su - root

    2)查询容器

     kubectl get pot -n dws

  3)有两个dwscontroller开头的pod,将其逐个删除

     kubectl delete pod dwscontrollerxxxxxx -n dws

    4)使用kubectl get pot -n dws查询,等待自动拉起,ready 为 1/1

6.删除失败集群,重新下发

想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技~

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。