DWS集群创建失败场景-No IP addresses available on network xxxxx
【关 键 词】:集群创建失败,DWS
【适用版本】:802版本
【故障类型】:较多节点集群创建或扩容,示例中为60节点以上
【问题现象】:console界面创建或者扩容,在33%时失败
【告警信息】:后台日志信息BMS.3005 No IP addresses available on network xxxxx
分析过程:
1.报错信息如下,查看有关键字,BMS.3005 No IP addresses available on network xxxx,其中xxxx网络id,可以在serviceOM中查看具体的网络,算出ip不足,只有61个ip,但是当节点超过时则没有ip资
2.登录cloudscope->cdk-->服务管理->dwscontroller服务查看涉及的ctype,btype网段如下24位,0,4,8,12分别为26位掩码
和规划的网络不符合,规划如下:
应该生成19位子网,但是生成的都是26位,导致在节点超过60的时候,ip资源不够
分析结论:
并查看相关的代码得出结论,HCSD代码中设置了DWS分配的资源租户vpc子网掩码为24位,去除网络号后可用的为26位掩码。导致网段生成有问题,此处需要手动修改cdk相关参数,重新下发dws集群
解决方案:
1.ctype,btype按规划的为17位,对应补充,0,4,8,12 分别分四段19位网段,修改如下图所示的参数
subnet.cidr.cType12,subnet.cidr.cType8,subnet.cidr.cType4,subnet.cidr.cType0 均分ctype,19位ip地址
subnet.cidr.bType0,subnet.cidr.bType4,subnet.cidr.bType8,subnet.cidr.bType12 均分btype,19位ip地址
vpc.cidr.bType,vpc.cidr.cType 按规划值填写
2.修改 mgr.portEgressIp 修改中间两个ip地址,对应规划ctype,btypeip
3.修改mgr.portIngressIp中间两个ip地址,对应修改为规划的ctype,btypeip
4.修改完成后,下一步升级,确认仅修改对应以上参数,等升级完成
5.让修改参数立即生效
1)登陆容器 EICommon-Region-Master-03/EICommon-Region-Master-02/EICommon-Region-Master-01任意一个
su - root
2)查询容器
kubectl get pot -n dws
3)有两个dwscontroller开头的pod,将其逐个删除
kubectl delete pod dwscontrollerxxxxxx -n dws
4)使用kubectl get pot -n dws查询,等待自动拉起,ready 为 1/1
6.删除失败集群,重新下发
想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技~
- 点赞
- 收藏
- 关注作者
评论(0)