DWS管控面问题定界案例
情况一:虚拟机无法登录
(定界标准虚拟机无法登录或登录上之后很快就掉)
可以询问是否网络测做过变更操作,IP冲突,联系网络测同事排查。
情况二:无法进入DWS相关服务容器
(定界标准POD拉起时间过长后无法拉起)
kubectl describe pod XXX -n dws 查看容器详情
其中有Fail信息或err信息,联系CDK测同事排查。
情况三:DWS创建集群失败的网络问题
(定界标准以下几种情况均需VPC网络测排查)
登录RMS数据库之后,查询集群下发失败环节
1、RdsPingInstanceManagerIpTask(界面错误码DWS.6016\DWS.6000)
1.1通过BMC登录到节点之后ping CDK master节点,或者在CDK master节点ping BMS机器(BMS的管理IP可以在dws instance表中查找。)
管理IP查询方法:select manageIp from rds_instance where name like '%集群名称%';
1.2vlan有Ip而bond0无Ip场景,且发单台裸机bond0无ip,查看网络是否有问题,可能原因(机器入云前发放过裸机,交换机内部配置未手动清理)
1.3ps -ef|grep rpc或查看/home/Ruby/log/下是否有channel日志,确保rpc进程已启动
注意要是分不清网络从哪到哪看这个:http://3ms.huawei.com/km/blogs/details/9311877
2、RdsDownloadPackageTask
2.1OBS域名不通,网段未放通
3、RdsCreatePortTask
3.1 BMS机型组bond错误,重新组bond。注意DWS是两个网卡,四网口,跨网卡组一个bond即可。
4、RdsInitInstanceTask
4.1创建互信失败,集群内不同节点相互ping,检查网络是否互通,如果不互通,则找网络放开对应vlan。
情况四:DWS创建集群失败的BMS相关问题
(定界标准以下几种情况均需BMS测排查)
登录RMS数据库之后,查询集群下发失败环节
1、RdsCreateInstanceTask
1.1根据日志查看具体原因,日志中找到BMS.0042类似这样的错误码和错误提示信息,或 glance image-show 查看镜像注册是否有问题(如公共镜像桶OBS端口号,管理镜像or公共镜像等)
2、StartupServerTask
2.1启动BMS失败
3、错误码
3.1BMS.0042(规格无法匹配到裸机服务器\裸机资源被占用,未释放\下发裸机的IP不足\下发裸机的vlan不足)
3.2BMS.3037(创建BMS集群 资源不可用)
3.3BMS.3033(创建BMS volume type错误)
4、BMS创建规格页面添加标签按照文档无法校验通过
- 点赞
- 收藏
- 关注作者
评论(0)