[HCS]DWS集群下发失败定位手段
一、查询rms数据库获取jobid和失败任务
1、登录运维容器
•使用opsadmin用户登录CDK master三节点中任一节点(EICommon-Region-Master-xx),然后切换root
•执行kubectl get pod -n ecf 查询运维容器dwsmaintaintool名称
•使用命令登录运维容器:kubectl exec -it dwsmaintaintool-xxx-xx -n ecf bash
2、连接数据库
•执行cd /opt/cloud/3rdComponent/opsTool命令进入连接数据库工具目录
•连接数据库: mysql -h{db.url中的ip} -P{db.url中的端口} -Drms -uecf 连接数据库信息见附录①
3、查询失败任务信息(jobid、task名称)
•查询失败任务信息:SELECT job_id,t.server_hostname,execution_status,job_def_name,fail_reason,begin_time,end_time from taskmgr_job t where request LIKE '%集群名称%' order by begin_time desc;
•复制获取任务状态为失败的jobid、task名称、server的主机名:dwscontroller-xxx
二、根据jobid查询日志
1、如果获取的失败job名称不是初始化实例及之后的job,则登录controller容器查看日志
•登录CDK master主节点(EICommon-Region-Master-xx),root用户查询dwscontroller容器名称:kubectl get pod -n dws
•对比上一步骤中数据库中查询的失败任务记录中对应的主机容器名:dwscontroller-xx,如果存在则登录该容器
•执行kubectl exec -it dwscontroller-xxx-xx -n dws bash登录该容器
•进入日志目录:cd logs
•查看失败日志:grep jobid ossres-dws.log | grep ERROR
•结合日志分析原因
2、如果失败的job名称是初始化实例失败,则需要登录任一实例查看日志(提示:保证创建失败后自动删除实例配置关闭,参考:https://bbs.huaweicloud.com/blogs/429811)
•在service OM页面的数据仓库服务-》数据面运维-》集群列表 根据集群名获取任一cn节点的id
•在运维容器dwsmaintaintool的运维工具目录/opt/cloud/3rdComponent/opsTool下,使用工具登录节点
•使用命令登录cn实例节点:sh connectTool.sh -u{用户名} -drms -h{主机ip} -p{端口号} -n 集群实例ID -t Standalone ,与连接mysql参数值一样
•登录后切换用户:su -Ruby ,
•进入日志目录:/home/Ruby/log
•查看部署日志:cloud-dws-deploy.log
•或查看创建可信日志:xx-trust.log
附录:
① 获取rms数据库连接信息
1、使用浏览器以系统管理员登录CloudScope界面。
•登录地址:https://CloudScope界面的访问地址。例如,https://cloudscope.demo.com。
•CloudScope界面访问地址请参见安装自动化变更平台组件时由HCC Turnkey导出的部署参数表中“Portal”页签的“COP”相关信息。
•默认帐号:op_cdk_sso
•默认帐号密码,请参见 《华为云Stack 8.3.0 帐户一览表》的“CloudScopeLite”页签,搜索该帐户对应的默认密码。
2、页面上方导航选择“运维服务 > 变更管理 > CloudAutoDeploy-CDK”进入cdk页面。
3、左侧导航栏选择“变更管理 > 服务升级”,选择对应的Region,集群选择“ei-dbs-region”,搜索框搜索dwscontroller,勾选对应的dwscontroller,单击“下一步”。
4、右侧搜索框中输入关键字“db.”,将db.password对应的密码密文,db.username对应的用户名,db.url对应的数据库ip和端口记录下来。
5、连接rms数据库命令:mysql -h{db.url中的ip} -P{db.url中的端口} -Drms -uecf
db.password的值为数据库密码的密文,解密见解密章节
② 解密密文
1、查找CDK master节点ip并登录
•在MO运维面在常用链接跳转到“Service OM”平台或直接登录“Service OM”平台
•进入Service OM页面,单击“虚拟机”
•在虚拟机列表中搜索“EICommon-Region-Master”,三节点任选一个节点ip即可
•使用opsadmin用户登录CDK master节点,再切换到root用户
•opsadmin默认密码:请参见 《华为云Stack 8.3.0 帐户一览表》的“A类(后台)”页签,搜索“EICommon-Region-Master-01”获取。
•root默认密码:请参见 《华为云Stack 8.3.0 帐户一览表》的“A类(后台)”页签,搜索“EICommon-Region-Master-01”获取。
2、后台登录CDK master节点(EICommon-region-master-xxx)查询运维容器名称
kubectl get pod -n ecf
•查找名字开头为“dwsmaintaintool”的容器,两个任选一个登录即可
•登录命令:kubectl exec -it dwsmaintaintool-ff99697f6-vtkcb -n ecf bash
3、解密密文
•执行 cd /opt/cloud/3rdComponent/opsTool命令进入解密工具目录
•执行 java -jar SccTool.jar命令启动解密工具
•输入:3 空格 {密文} 然后回车,获取解密后的明文
•CTRL+C退出工具
- 点赞
- 收藏
- 关注作者
评论(0)