GaussDB(DWS)NTP变更指南
GaussDB(DWS)NTP变更指南
1 NTP时间同步机制
配置外部NTP服务器,其实只是给主OMS配置了一个NTP服务器,主OMS节点与NTP服务器的时间同步FIM有专门的脚本在管理,这是个常驻的脚本
/opt/huawei/Bigdata/OMSV100R001C00x8664/workspace/ha/module/harm/plugin/script/ntp_tickadj.sh
这个脚本首先会截取/etc/ntp.conf中配置的第一个ip,第一个异常或无法同步时间则会取第二个ip 作为外部时钟源同步时间,如果没有配置外部时钟源,FIM默认用的是主OMS节点的时间与本地NTP服务器同步时间。
集群内的其他节点同步时间,是将主OMS节点作为ntp服务器同步时间的,NTP服务器IP地址为OMS节点的om_float_ip。
2 NTP变更实施方案
2.1 操作场景
安装GaussDB(DWS)集群后,如果未配置NTP服务器或已配置的NTP不再使用,管理员可以为集群重新指定或者更换新的NTP服务器,使集群从新的NTP时钟源同步时间。
2.2 前置准备工作及注意事项
1. 提前准备好NTP服务器,且NTP 服务器必须满足以下条件:
1) NTP服务器的IP必须是固定的稳定的IP地址,不能为浮动IP;
2) 必须是可对外提供时间同步服务;
3) NTP服务器与主备OMS节点之间的网络必须是通的。
2. 变更前必须保证OMS状态是Normal;
使用omm用户登录到主OMS节点上执行,sh /opt/huawei/Bigdata/om-server/om/sbin/status-oms.sh
ResHAStatus列必须全为Normal状态则通过,不通过必须先修复之后再执行后面的操作。
3. 变更前必须保证集群的状态是正常
使用admin账号登录到FI管理界面->Services->More Actions->Health Check,检查所有组件是否正常,正常则通过,不通过必须先修复之后再执行后面的操作。
4. 变更前必须保证集群中所有节点的状态是正常
使用admin账号登录到FI管理界面->Hosts->(勾选所有节点)More Actions->Health Check,检查所有节点是否正常,正常则通过,不通过必须先修复之后再执行后面的操作。
5. 检查集群与NTP服务器的时间差
RedHat系统检查方法:
例如,检查与NTP服务器“10.1.1.1”的时间差,root用户执行ntpdate -d 10.1.1.1,界面显示:
31 Jan 10:10:10 ntpdate[6015]: adjust time server 10.1.1.1 offset -0.000020 sec
其中-0.000020表示时间偏差,正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢
SuSE系统检查方法:
例如,检查与NTP服务器“10.1.1.1”的时间差, root用户执行sntp -v 10.1.1.1,界面显示:
2016 Jan 31 10:10:10.696 - 2951.564 +/- 0.010 secs
其中- 2951.564表示时间偏差,正数表示NTP服务器时间比集群当前时间慢,负数表示NTP服务器时间比集群当前时间快
备注:时间差以主备OMS节点时间差最大的检查结果为准。
6. 检查告警
所有节点的NTP服务状态必须是正常的,不能有NTP相关的任何告警,如果有需要先处理之后再执行后面的操作。
2.3 操作步骤
在检查完环境之后实施修改NTP服务器操作,根据时间差的检查结果,将操作可以分为以下几种场景
序号 |
关键活动 |
操作时间 |
责任人 |
1 |
时间差在2.5min以内 |
变更时操作 |
现场实施人员 |
2 |
时间差超过2.5min,集群时间快 |
变更时操作 |
现场实施人员 |
3 |
时间差超过2.5min,集群时间慢 |
变更时操作 |
现场实施人员 |
下面的示例中以IP为10.1.1.1,10.1.1.2 的NTP服务器举例。
1) 时间差在2.5min以内
a) 用omm用户登录到主OMS节点
sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1
当前最多允许配置2个NTP服务器以主备方式提供服务,可以用“,”将不同服务器分开。例如,sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1,10.1.1.2
2) 时间差超过2.5min,集群时间快
a) 登陆FI管理界面->Services->More Actions->Stop Cluster(停止集群),停止成功后需等待间隔至少为前面检查的时间差
b) 用omm用户登录到主OMS节点
c) 执行以下命令,更换NTP服务器并强制同步时间
sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time
当前最多允许配置2个NTP服务器以主备方式提供服务,可以用“,”将不同服务器分开。例如,sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1,10.1.1.2
d) 启动集群
3) 时间差超过2.5min,集群时间慢
a) 登陆FI管理界面->Services->More Actions->Stop Cluster(停止集群)
b) 用omm用户登录到主OMS节点
c) 执行以下命令,更换NTP服务器并强制同步时间
sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time
当前最多允许配置2个NTP服务器以主备方式提供服务,可以用“,”将不同服务器分开。例如,sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1,10.1.1.2
d) 启动集群
2.4 变更后检查
检查集群状态,是否有新增告警及与NTP服务器时间同步状态
序号 |
关键活动 |
操作时间 |
责任人 |
1 |
检查是否有新增的NTP告警 |
变更后操作 |
现场实施人员 |
2 |
检查与NTP服务器同步时间状态 |
变更后操作 |
现场实施人员 |
1) 检查是否有新增NTP相关告警
登陆到FIM管理界面-->Alarms 检查是否有新增的NTP相关告警
2) 检查主OMS节点与NTP服务器的同步状态
用root用户登录到主OMS节点,执行ntpq –np命令,如下输出表示主OMS节点与NTP服务器时间同步正常
3 NTP变更常见问题定位
3.1 修改NTP服务器失败报错ping ntp server 10.1.1.1 failed
问题描述
执行修改脚本报如下错误:
sh /opt/huawei/Bigdata/om-0.0.1/bin/tools> sh modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time
execute command forbidswitch successfully.
Modify ntp.conf.active...........done
Modify ntp.xml...................done
…
ping ntp server 10.1.1.1 failed.
PING 10.1.1.1 (10.1.1.1) 56(84) bytes of data.
From 10.1.1.1 icmp_seq=1 Destination Host Unreachable
…
ping ntp server 10.1.1.1 failed.
sync_time 10.1.1.1 failed.
execute command cancelforbidswitch successfully.
问题分析
网络原因,配置的NTP服务器ping不通。
解决方案
先解决网络问题,再重新执行修改脚本。
3.2 备OMS上执行修改NTP服务器失败
问题描述
执行修改脚本报如下错误:
sh /opt/huawei/Bigdata/om-0.0.1/bin/tools> sh modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time
This is standby OMS. Please run me on the active OMS.
问题分析
此节点为备OMS节点,该操作需要在主OMS节点上执行,不能再备OMS节点上操作。
解决方案
用omm用户登录到主OMS节点上重新执行。
3.3 使用root用户执行修改NTP服务器失败
问题描述
执行修改脚本报如下错误
sh /opt/huawei/Bigdata/om-0.0.1/bin/tools/modifyntp.sh --ntp_server_ip 10.1.1.1 --force_sync_time
Error: This script can only run by user omm. The current user is root
问题分析
该操作需要在主OMS节点上omm用户下执行,不能使用其他用户操作。
解决方案
用omm用户登录到主OMS节点上重新执行。
- 点赞
- 收藏
- 关注作者
评论(0)