DWS管控面问题定界案例

举报
德莱文 发表于 2022/11/03 11:26:01 2022/11/03
【摘要】 DWS定界相关,可持续补充

情况一:虚拟机无法登录

定界标准虚拟机无法登录或登录上之后很快就掉

可以询问是否网络测做过变更操作,IP冲突,联系网络测同事排查。

情况二:无法进入DWS相关服务容器

定界标准POD拉起时间过长后无法拉起

kubectl describe pod XXX -n dws 查看容器详情

其中有Fail信息或err信息,联系CDK测同事排查。

情况三:DWS创建集群失败的网络问题

定界标准以下几种情况均需VPC网络测排查

登录RMS数据库之后,查询集群下发失败环节

1、RdsPingInstanceManagerIpTask(界面错误码DWS.6016\DWS.6000)

1.1通过BMC登录到节点之后ping CDK master节点,或者在CDK master节点ping BMS机器(BMS的管理IP可以在dws instance表中查找。)

管理IP查询方法:select manageIp from rds_instance  where name like '%集群名称%';

1.2vlan有Ip而bond0无Ip场景,且发单台裸机bond0无ip,查看网络是否有问题,可能原因(机器入云前发放过裸机,交换机内部配置未手动清理)

1.3ps -ef|grep rpc或查看/home/Ruby/log/下是否有channel日志,确保rpc进程已启动

注意要是分不清网络从哪到哪看这个:http://3ms.huawei.com/km/blogs/details/9311877

2、RdsDownloadPackageTask

2.1OBS域名不通,网段未放通

3、RdsCreatePortTask

3.1 BMS机型组bond错误,重新组bond。注意DWS是两个网卡,四网口,跨网卡组一个bond即可。

4、RdsInitInstanceTask

4.1创建互信失败,集群内不同节点相互ping,检查网络是否互通,如果不互通,则找网络放开对应vlan。

情况四:DWS创建集群失败的BMS相关问题

定界标准以下几种情况均需BMS测排查

登录RMS数据库之后,查询集群下发失败环节

1、RdsCreateInstanceTask

1.1根据日志查看具体原因,日志中找到BMS.0042类似这样的错误码和错误提示信息,或 glance image-show 查看镜像注册是否有问题(如公共镜像桶OBS端口号,管理镜像or公共镜像等)

2、StartupServerTask

2.1启动BMS失败

3、错误码

3.1BMS.0042(规格无法匹配到裸机服务器\裸机资源被占用,未释放\下发裸机的IP不足\下发裸机的vlan不足)

3.2BMS.3037(创建BMS集群  资源不可用)

3.3BMS.3033(创建BMS volume type错误)

4、BMS创建规格页面添加标签按照文档无法校验通过



【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。