[HCS]DWS集群下发失败定位手段

举报
农夫山泉 发表于 2024/05/25 18:56:28 2024/05/25
【摘要】 DWS集群下发失败问题定位手段

一、查询rms数据库获取jobid和失败任务

      1、登录运维容器

           •使用opsadmin用户登录CDK master三节点中任一节点(EICommon-Region-Master-xx),然后切换root

           •执行kubectl get pod -n ecf 查询运维容器dwsmaintaintool名称

           •使用命令登录运维容器:kubectl exec -it dwsmaintaintool-xxx-xx  -n ecf bash

      2、连接数据库

            执行cd /opt/cloud/3rdComponent/opsTool命令进入连接数据库工具目录

            连接数据库: mysql -h{db.url中的ip} -P{db.url中的端口} -Drms -uecf   连接数据库信息见附录① 

      3、查询失败任务信息(jobid、task名称)

           查询失败任务信息:SELECT job_id,t.server_hostname,execution_status,job_def_name,fail_reason,begin_time,end_time from taskmgr_job t where request LIKE '%集群名称%'  order by begin_time desc;

           复制获取任务状态为失败的jobid、task名称、server的主机名:dwscontroller-xxx

二、根据jobid查询日志

     1、如果获取的失败job名称不是初始化实例及之后的job,则登录controller容器查看日志

          登录CDK master主节点(EICommon-Region-Master-xx),root用户查询dwscontroller容器名称:kubectl get pod -n dws

          对比上一步骤中数据库中查询的失败任务记录中对应的主机容器名:dwscontroller-xx,如果存在则登录该容器

          执行kubectl exec -it dwscontroller-xxx-xx  -n dws bash登录该容器

          进入日志目录:cd logs

          查看失败日志:grep jobid ossres-dws.log | grep ERROR

          结合日志分析原因

       2、如果失败的job名称是初始化实例失败,则需要登录任一实例查看日志(提示:保证创建失败后自动删除实例配置关闭,参考:https://bbs.huaweicloud.com/blogs/429811)

          在service OM页面的数据仓库服务-》数据面运维-》集群列表 根据集群名获取任一cn节点的id

          在运维容器dwsmaintaintool的运维工具目录/opt/cloud/3rdComponent/opsTool下,使用工具登录节点

          使用命令登录cn实例节点:sh connectTool.sh -u{用户名} -drms -h{主机ip} -p{端口号} -n 集群实例ID -t Standalone ,与连接mysql参数值一样

          登录后切换用户:su -Ruby ,

          进入日志目录:/home/Ruby/log

          查看部署日志:cloud-dws-deploy.log

          或查看创建可信日志:xx-trust.log


附录:

① 获取rms数据库连接信息

     1、使用浏览器以系统管理员登录CloudScope界面。

          •登录地址:https://CloudScope界面的访问地址。例如,https://cloudscope.demo.com。
          •CloudScope界面访问地址请参见安装自动化变更平台组件时由HCC Turnkey导出的部署参数表中“Portal”页签的“COP”相关信息。
          •默认帐号:op_cdk_sso
          •默认帐号密码,请参见 《华为云Stack 8.3.0 帐户一览表》的“CloudScopeLite”页签,搜索该帐户对应的默认密码。

     2、页面上方导航选择“运维服务 > 变更管理 > CloudAutoDeploy-CDK”进入cdk页面。
     3、左侧导航栏选择“变更管理 > 服务升级”,选择对应的Region,集群选择“ei-dbs-region”,搜索框搜索dwscontroller,勾选对应的dwscontroller,单击“下一步”。 

     4、右侧搜索框中输入关键字“db.”,将db.password对应的密码密文,db.username对应的用户名,db.url对应的数据库ip和端口记录下来。

     5、连接rms数据库命令:mysql -h{db.url中的ip} -P{db.url中的端口} -Drms -uecf

       db.password的值为数据库密码的密文,解密见解密章节

②  解密密文

      1、查找CDK master节点ip并登录

          •在MO运维面在常用链接跳转到“Service OM”平台或直接登录“Service OM”平台
          •进入Service OM页面,单击“虚拟机”
          •在虚拟机列表中搜索“EICommon-Region-Master”,三节点任选一个节点ip即可
          •使用opsadmin用户登录CDK master节点,再切换到root用户

                   •opsadmin默认密码:请参见 《华为云Stack 8.3.0 帐户一览表》的“A类(后台)”页签,搜索“EICommon-Region-Master-01”获取。
                   •root默认密码:请参见 《华为云Stack 8.3.0 帐户一览表》的“A类(后台)”页签,搜索“EICommon-Region-Master-01”获取。

     2、后台登录CDK master节点(EICommon-region-master-xxx)查询运维容器名称

            kubectl get pod -n ecf 

            •查找名字开头为“dwsmaintaintool”的容器,两个任选一个登录即可

           

           •登录命令:kubectl exec -it dwsmaintaintool-ff99697f6-vtkcb  -n ecf bash

      3、解密密文

            •执行 cd /opt/cloud/3rdComponent/opsTool命令进入解密工具目录

            •执行 java -jar SccTool.jar命令启动解密工具

            •输入:3 空格  {密文}         然后回车,获取解密后的明文

            •CTRL+C退出工具


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。