GaussDB(DWS)NTP变更指南

举报
召走小子 发表于 2020/11/20 10:08:27 2020/11/20
【摘要】 介绍了NTP变更的实施方案及问题定位

GaussDB(DWS)NTP变更指南

1      NTP时间同步机制

 image.png

配置外部NTP服务器,其实只是给主OMS配置了一个NTP服务器,主OMS节点与NTP服务器的时间同步FIM有专门的脚本在管理,这是个常驻的脚本

/opt/huawei/Bigdata/OMSV100R001C00x8664/workspace/ha/module/harm/plugin/script/ntp_tickadj.sh

这个脚本首先会截取/etc/ntp.conf中配置的第一个ip,第一个异常或无法同步时间则会取第二个ip 作为外部时钟源同步时间,如果没有配置外部时钟源,FIM默认用的是主OMS节点的时间与本地NTP服务器同步时间。

集群内的其他节点同步时间,是将主OMS节点作为ntp服务器同步时间的,NTP服务器IP地址为OMS节点的om_float_ip

2      NTP变更实施方案

2.1      操作场景

安装GaussDB(DWS)集群后,如果未配置NTP服务器或已配置的NTP不再使用,管理员可以为集群重新指定或者更换新的NTP服务器,使集群从新的NTP时钟源同步时间。

2.2      前置准备工作及注意事项

1.         提前准备好NTP服务器,且NTP 服务器必须满足以下条件:

1)    NTP服务器的IP必须是固定的稳定的IP地址,不能为浮动IP

2)    必须是可对外提供时间同步服务;

3)    NTP服务器与主备OMS节点之间的网络必须是通的。

2.         变更前必须保证OMS状态是Normal

使用omm用户登录到主OMS节点上执行,sh /opt/huawei/Bigdata/om-server/om/sbin/status-oms.sh

ResHAStatus列必须全为Normal状态则通过,不通过必须先修复之后再执行后面的操作。

3.         变更前必须保证集群的状态是正常

使用admin账号登录到FI管理界面->Services->More Actions->Health Check,检查所有组件是否正常,正常则通过,不通过必须先修复之后再执行后面的操作。

4.         变更前必须保证集群中所有节点的状态是正常

使用admin账号登录到FI管理界面->Hosts->(勾选所有节点)More Actions->Health Check,检查所有节点是否正常,正常则通过,不通过必须先修复之后再执行后面的操作。

5.         检查集群与NTP服务器的时间差

RedHat系统检查方法:

例如,检查与NTP服务器“10.1.1.1”的时间差,root用户执行ntpdate -d 10.1.1.1,界面显示:

31 Jan 10:10:10 ntpdate[6015]: adjust time server 10.1.1.1 offset -0.000020 sec

其中-0.000020表示时间偏差,正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢

SuSE系统检查方法:

例如,检查与NTP服务器“10.1.1.1”的时间差, root用户执行sntp -v 10.1.1.1,界面显示:

2016 Jan 31 10:10:10.696 - 2951.564 +/- 0.010 secs

其中- 2951.564表示时间偏差,正数表示NTP服务器时间比集群当前时间慢,负数表示NTP服务器时间比集群当前时间快

备注:时间差以主备OMS节点时间差最大的检查结果为准

6.         检查告警

所有节点的NTP服务状态必须是正常的,不能有NTP相关的任何告警,如果有需要先处理之后再执行后面的操作。

2.3      操作步骤

在检查完环境之后实施修改NTP服务器操作,根据时间差的检查结果,将操作可以分为以下几种场景

序号

关键活动

操作时间

责任人

1

时间差在2.5min以内

变更时操作

现场实施人员

2

时间差超过2.5min,集群时间快

变更时操作

现场实施人员

3

时间差超过2.5min,集群时间慢

变更时操作

现场实施人员

  下面的示例中以IP10.1.1.1,10.1.1.2 NTP服务器举例。

1)      时间差在2.5min以内

a)   omm用户登录到主OMS节点

b)   执行以下命令,更换NTP服务器

sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1

当前最多允许配置2NTP服务器以主备方式提供服务,可以用“,”将不同服务器分开。例如,sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1,10.1.1.2

2)      时间差超过2.5min,集群时间快

a)  登陆FI管理界面->Services->More Actions->Stop Cluster(停止集群)停止成功后需等待间隔至少为前面检查的时间差

b)  omm用户登录到主OMS节点

c)  执行以下命令,更换NTP服务器并强制同步时间

sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time

当前最多允许配置2NTP服务器以主备方式提供服务,可以用“,”将不同服务器分开。例如,sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1,10.1.1.2

d)  启动集群

3)      时间差超过2.5min,集群时间慢

a)  登陆FI管理界面->Services->More Actions->Stop Cluster(停止集群)

b)  omm用户登录到主OMS节点

c)  执行以下命令,更换NTP服务器并强制同步时间

sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time

当前最多允许配置2NTP服务器以主备方式提供服务,可以用“,”将不同服务器分开。例如,sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1,10.1.1.2

d)  启动集群

2.4      变更后检查

检查集群状态,是否有新增告警及与NTP服务器时间同步状态

序号

关键活动

操作时间

责任人

1

检查是否有新增的NTP告警

变更后操作

现场实施人员

2

检查与NTP服务器同步时间状态

变更后操作

现场实施人员

 

1)  检查是否有新增NTP相关告警

登陆到FIM管理界面-->Alarms 检查是否有新增的NTP相关告警

2)  检查主OMS节点与NTP服务器的同步状态

root用户登录到主OMS节点,执行ntpq –np命令,如下输出表示主OMS节点与NTP服务器时间同步正常

image.png

3      NTP变更常见问题定位

3.1      修改NTP服务器失败报错ping ntp server 10.1.1.1 failed

问题描述

执行修改脚本报如下错误:

sh /opt/huawei/Bigdata/om-0.0.1/bin/tools> sh modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time

execute command forbidswitch successfully.

Modify ntp.conf.active...........done

Modify ntp.xml...................done

ping ntp server 10.1.1.1 failed.

PING 10.1.1.1 (10.1.1.1) 56(84) bytes of data.

From 10.1.1.1 icmp_seq=1 Destination Host Unreachable

ping ntp server 10.1.1.1 failed.

sync_time 10.1.1.1 failed.

execute command cancelforbidswitch successfully.

问题分析

网络原因,配置的NTP服务器ping不通。

解决方案

先解决网络问题,再重新执行修改脚本。

3.2      OMS上执行修改NTP服务器失败

问题描述

执行修改脚本报如下错误:

sh /opt/huawei/Bigdata/om-0.0.1/bin/tools> sh modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time

This is standby OMS. Please run me on the active OMS.

问题分析

此节点为备OMS节点,该操作需要在主OMS节点上执行,不能再备OMS节点上操作。

解决方案

omm用户登录到主OMS节点上重新执行。

3.3      使用root用户执行修改NTP服务器失败

问题描述

执行修改脚本报如下错误

sh /opt/huawei/Bigdata/om-0.0.1/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time

Error: This script can only run by user omm. The current user is root

问题分析

该操作需要在主OMS节点上omm用户下执行,不能使用其他用户操作。

解决方案

omm用户登录到主OMS节点上重新执行。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。