云备份 CBR Hive 备份恢复用户指南
1.1 信息收集
在规划与准备Hive定时备份恢复前,请您先获取参考文档了解相关内容并收集Hadoop分布式文件系统集群和Hive集群信息。
1.1.1 Hive集群信息收集
为防止操作被中断,建议您提前收集好后续操作要使用的Hadoop分布式文件系统集群和Hive集群信息并确保Hadoop与Hive集群的状态正常运行。详见表1-1 Hive集群信息收集表。
表1-1 Hive集群信息收集表
编号 |
信息项 |
获取方式 |
1 |
HDFS NameNode IP或 HDFS URL:用于连接HDFS NameNode服务,可保持默认URL: default。 |
详见《云备份 CBR Hadoop文件系统备份恢复用户指南》1.1.1 Hadoop分布式文件系统集群信息收集章节 |
2 |
HDFS用户名:连接HDFS和Hive时使用的用户名。 |
|
3 |
HDFS客户端:用于进行备份Hive关联的HDFS文件,可选择HDFS DataNode节点作为HDFS客户端。 |
|
4 |
Keytab路径:HDFS用户的Keytab文件全路径,只有开启kerberos认证的Hadoop集群需要填写该配置项。 |
|
5 |
HiveServer2 principal:默认为hive/_HOST@HADOOP.COM,只有开启kerberos认证的Hadoop集群需要填写该配置项。 |
1、登录机器后台先查找Hive服务配置文件:find / -name "hive-site.xml" 2、查询参数:cat hive-site.xml | grep -A2 hive.server2.authentication.kerberos.principal 3、执行beeline命令获取 MRS版本中hive-site.xml配置文件常见路径:/opt/Bigdata/client/Hive/config/hive-site.xml |
6 |
ZooKeeper IP与端口号:端口号默认为2181,只有开启配置ZooKeeper的Hadoop集群可以选填该配置项。 |
登录集群管理后台查看Hive服务中hive.zookeeper.quorum配置项;也可通过执行beeline命令获取 |
7 |
ZooKeeper namespace:默认为hiveserver2,只有开启配置ZooKeeper的Hadoop集群可以选填该配置项。 |
登录集群管理后台查看Hive服务中hive.zookeeper.namespace配置项;也可通过执行beeline命令获取 |
8 |
HiveServer2 IP与端口号:端口号默认为10000。 |
登录集群管理后台查看HiveServer2节点与HiveServer2 Port配置项 |
9 |
Hive客户端:用于执行repl dump/load 数据导入导出操作并备份Hive关联的HDFS文件的客户端。需要能连接HDFS,能运行beeline的客户端。 |
登录集群管理后台查看HiveServer2节点 |
10 |
Hadoop native library path即libhdfs.so文件所在目录。 |
寻找方法:find /opt -name libhdfs.so MRS版本常见路径:/opt/Bigdata/client/HDFS/hadoop/lib/native/ |
11 |
the jvm library path即java安装目录下的libjvm.so文件所在目录。 |
寻找方法:find /opt -name libjvm.so MRS版本常见路径一:/opt/Bigdata/common/runtime0/jdk1.8.0_332/jre/lib/amd64/server/ MRS版本常见路径二:/opt/Bigdata/client/JDK/jdk1.8.0_332/jre/lib/amd64/server/ |
12 |
The absolute path of file krb5.conf即krb5.conf文件的绝对路径。 |
寻找方法:find /opt -name krb5.conf MRS版本常见路径:/opt/Bigdata/client/KrbClient/kerberos/var/krb5kdc/krb5.conf |
13 |
The kinit bin file path即kinit bin文件所在目录。 |
寻找方法:which kinit 或者 find /opt -name kinit MRS版本常见路径:/opt/Bigdata/client/KrbClient/kerberos/bin/ |
14 |
Hadoop bin file path即hadoop bin文件所在目录。 |
寻找方法:which hdfs 或者 find /opt -name hadoop MRS版本常见路径:/opt/Bigdata/client/HDFS/hadoop/bin/ |
通过执行beeline命令可以获取上述部分参数。其中ip:port格式的对应ZooKeeper IP与端口号;zooKeeperNamespace参数对应ZooKeeper namespace;principal参数对应HiveServer2 principal。
1.2 Hive配置
在安装 CBR客户端前,为确保可以正常新建Hive虚拟客户端,需要客户端能够执行beeline命令正常连接到Hive。若客户端环境中不存在beeline工具,请您先安装beeline工具,并将beeline安装目录加入系统环境变量。
在使用 CBR 进行Hive备份与恢复前,为确保可以正常备份,请您先为Hive集群配置如下参数并重启Hive服务:
表1-2 Hive集群参数配置
参数 |
值 |
说明 |
hive.metastore.transactional.event.listeners |
org.apache.hive.hcatalog.listener.DbNotificationListener |
|
hive.metastore.dml.events |
true |
|
hive.repl.cm.enabled |
true |
|
hive.repl.replica.external.table.base.dir |
CDH版本:fs.defaultFS配置项+/(如hdfs://master:8020/) HDP版本:/ MRS版本:fs.defaultFS配置项+/(如hdfs://hacluster/) |
其中fs.defaultFS配置项详见《云备份 CBR Hadoop文件系统备份恢复用户指南》1.1.1 Hadoop分布式文件系统集群信息收集章节 |
hive.users.in.admin.role |
root,omm |
选填 |
hive-ext.repl.lazy.enable |
true |
只有MRS版本需要填写,其它版本无需填写 |
l 若为MRS版本,需设置上表的自定义参数,步骤如下:
步骤 1 从运营面进入MapReduce服务,在要备份的MapReduce集群的详情页面,单击“前往Manager”前往集群管理页面
步骤 2 输入集群管理密码
步骤 3 单击菜单“集群”→ “Hive”,在Hive服务页面单击配置“配置”→ “全部配置”,展开“HiveServer”,单击“自定义”,修改参数“hive.server.customized.configs”,依次单击“+”号添加表1里的自定义参数,单击左上角“保存”按钮。
步骤 4 重启Hive实例
步骤 5 执行beeline命令
保证Hive实例正常后,执行beeline命令确保能够正常连接Hive。
l 若为MRS版本,为确保可以正常恢复,需要修改default数据库的owner_type属性为USER。修改方法:登录MRS节点执行修改操作的SQL:alter database default set owner user public;
----结束
1.3 客户端安装部署
Hive客户端安装方式与Hadoop 文件系统客户端安装方式一致,您可以参考《云备份 CBR 客户端软件安装卸载用户指南》安装Hadoop客户端。下面为示例。
步骤 1 加载MRS环境变量
进入MRS客户端目录,一般为/opt/Bigdata/client,寻找bigdata_env变量文件,执行下面命令加载环境变量:
source /opt/Bigdata/client/bigdata_env
步骤 2 下载CBR客户端,下载时记录下租户识别码
步骤 3 登录MRS节点,上传客户端压缩包,执行解压缩命令如下
tar -zxvf Basic-Linux_el8_x64-latest.tar.gz
tar -zxvf AggregateApp-Linux_el8_x64-latest.tar.gz
步骤 4 安装BasicRunner
步骤 5 安装AggregateApp,安装需要的参数见1.1小节“信息收集”
步骤 6 安装完成,查看客户端服务是否正常,查看命令:systemctl status HBRClientService
----结束
1.4 基础配置
在使用 CBR 进行Hive备份与恢复前,为确保可以正常备份,请您先配置基础项。
基础配置包括:检查管理控制台服务状态、外接客户端接入管理控制台、添加并激活授权码、配置备份存储数据 IP、配置OFS卷、元数据卷、重删卷等。基础信息配置的具体方法参阅《云备份 CBR 实施指导》和《云备份 CBR 公共管理用户指南》。
注意:
l 发起恢复时,可以不需要添加授权码。
l 备份Hive数据仓库时,需要通过客户端进行备份,故您必须至少准备一个外接客户端。
l 准备客户端前请您先仔细阅读《云备份 CBR 软件兼容性列表》,保证客户端在兼容列表中。
1.5 限制性功能
1.5.1 备份
l Hive定时备份恢复不支持数据库、表权限的备份与恢复。
l Hive备份过程中,手动删除产生的HDFS临时文件,可能会导致备份的数据不完整。
l Hive备份过程中,部分客户端节点异常,可能会导致部分文件对象未写入存储,导致备份的数据不完整
l 不支持备份与HBase关联的Hive表。
1.5.2 恢复
l 不支持跨Hive版本恢复,例如:不支持Hive 3.1.0恢复到Hive 3.1.1。
l Hive恢复过程中,手动删除产生的HDFS临时文件,可能会导致恢复的数据不完整。
l Hive恢复过程中,部分客户端节点异常,可能会导致部分文件对象未从存储读取,导致恢复的数据不完整。
l 不支持两个或多个任务同时恢复同一数据源到同一个Hive环境,可能会导致恢复失败。
l CDH版本,选择外部表重命名,恢复后重命名的表与该外部表Location一致。
l 同一个Hive虚拟客户端不能同时发起备份和恢复任务。
l 恢复后重命名的Hive表名称不能超过256个字符。
2 管理Hive虚拟客户端
2.1 新建Hive虚拟客户端
请您先仔细查阅《云备份 CBR 软件兼容性列表》,确保要添加的Hive虚拟客户端版本在兼容范围内。
添加 Hive虚拟客户端将由操作员进行操作。
请您根据以下操作进入添加Hive虚拟客户端界面:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【资源】→ 【客户端】→ 【分组管理】,进入客户端管理页面,单击【新建虚拟客户端】→【Hive虚拟客户端】;
步骤 3 输入客户端名称、选择组、HDFS 配置和Hive配置;
在对话框中,根据要求输入如下参数:
1. 客户端名称:输入用户自定义的客户端名称。
2. 选择组:选择Hive虚拟客户端需要添加的组。
3. NameNode IP :输入 Hadoop集群的NameNode IP。更多内容,请参考1.1.1 Hive集群信息收集。
4. NameNode 端口号 :输入 Hadoop集群的NameNode 端口号。更多内容,请参考1.1.1 Hive集群信息收集。
5. HDFS URL :输入 HDFS的fs.defaultFS配置项。建议选择HDFS URL选项,并保持URL为默认的default。更多内容,请参考1.1.1 Hive集群信息收集。
6. HDFS用户名:输入具有HDFS备份目录读写权限的用户名,需加入supergroup组。
7. HDFS客户端:单击【选择】勾选需要添加的HDFS客户端。
8. Keytab路径:输入开启kerberos认证的Hadoop集群HDFS用户的Keytab文件全路径。当Hive配置和HDFS配置选择了相同客户端时,Keytab路径要保持一致。更多内容,请参考1.1.1 Hive集群信息收集。
9. HiveServer2 principal:若集群开启了Kerberos,则需要输入Hive集群的HiveServer2 principal。更多内容,请参考1.1.1 Hive集群信息收集。
10. Hive客户端:单击【选择】勾选需要添加的Hive客户端。
11. 配置ZooKeeper:可选择是否开启配置ZooKeeper,默认开启。使用ZooKeeper实现HiveServer2高可用的Hive环境可以选择是否开启配置ZooKeeper。关闭配置ZooKeeper后,下述参数显示为HiveServer2 IP/域名和HiveServer2端口号。
12. ZooKeeper IP/域名:输入Hive集群的ZooKeeper IP或域名。更多内容,请参考1.1.1 Hive集群信息收集。
13. ZooKeeper 端口号:输入Hive集群ZooKeeper IP或域名对应的端口号。更多内容,请参考1.1.1 Hive集群信息收集。
14. ZooKeeper namespace:输入Hive集群的ZooKeeper namespace。更多内容,请参考1.1.1 Hive集群信息收集。
步骤 4 确认无误后,单击【创建】按钮完成操作。
所有信息必须输入正确,输入错误单击创建会抛错。
----结束
2.2 编辑Hive虚拟客户端
Hive虚拟客户端新建成功后,其集群信息发生变更,为了不影响您的备份恢复业务,请您先编辑Hive虚拟客户端,更新对应信息,然后再操作备份恢复业务。您可根据以下操作编辑Hive虚拟客户端:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【资源】→ 【客户端】→ 【分组管理】,进入客户端管理页面;
步骤 3 选择已创建的虚拟客户端,单击【编辑】,其中客户端名称、选择组、NameNode IP、HDFS URL、HDFS用户名、HDFS客户端、HiveServer2 principal、Hive客户端、配置ZooKeeper、ZooKeeper IP/域名(或HiveServer IP/域名)、ZooKeeper端口号(或HiveServer端口号)、ZooKeeper namespace均支持编辑。
步骤 4 确认无误后,单击【修改】,即可编辑成功。
注意:集群主备NameNode节点漂移后,基于NameNode IP方式创建的虚拟客户端所创建的备份任务将无法正常备份,需要编辑Hive虚拟客户端,修改NameNode IP为漂移后的主NameNode IP后,才能正常备份。此时,建议您选择URL方式创建虚拟客户端,集群主备NameNode节点漂移后,备份任务将不受影响。
----结束
2.3 删除Hive虚拟客户端
您不想再使用该Hive虚拟客户端,此时您可以删除该Hive虚拟客户端。具体操作步骤如下:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【资源】→ 【客户端】→ 【分组管理】,进入客户端管理页面。
步骤 3 选择需要删除的虚拟客户端,单击【删除】按钮,系统弹出“警告”对话框。
步骤 4 请您在确认删除的情况下,在文本框中输入“YES”并单击【删除】完成操作。
步骤 5 删除后的Hive虚拟客户端如果需要继续被保护,您可以再次创建添加。
----结束
3 Hive定时备份
3.1 关于备份
在 CBR 中,备份是一种任务驱动型进程,执行备份之前,您需要先新建备份任务。备份任务是备份需求的一个配置集合单元,备份任务定义了备份内容、备份选项和备份数据存放的位置等。备份任务的新建操作,请您参考新建备份任务;备份任务新建成功后您可以对其进行管理,具体内容请参考3.3管理备份任务。
关于备份原理的具体内容,请您参考3.1.2备份原理。
首次备份时,任务将进行全量备份,后续可以根据您的需求设置备份类型为完全备份、增量备份。更多内容,请参考3.3.2启动备份任务。
3.1.1 Hive定时备份支持功能
表3-1 Hive定时备份支持功能
功能 |
子功能 |
支持 |
备注 |
备份 |
完全备份 |
√ |
备份粒度:数据库、表 |
增量备份 |
√ |
||
永久增量备份 |
√ |
||
数据源自动发现 |
√ |
||
数据保留策略 |
按时间保留 |
√ |
- |
按副本数保留 |
√ |
- |
|
按备份策略的备份周期设置副本保留策略 |
√ |
- |
|
传输和存储加密 |
- |
√ |
- |
数据压缩 |
- |
√ |
- |
流量控制 |
- |
√ |
- |
重复数据删除 |
- |
√ |
- |
备份自动重试 |
- |
√ |
- |
强制数据保留 |
- |
√ |
- |
备份数据一致性校验 |
- |
√ |
- |
远程复制 |
- |
√ |
- |
告警 |
- |
√ |
- |
日志 |
- |
√ |
- |
3.1.2 备份原理
CBR备份 Hive数据仓库,原理如下:
步骤 1 管理控制台启动备份任务。
步骤 2 管理控制台下发备份任务以及需要备份的数据源给客户端。
步骤 3 客户端根据管理控制台下发的备份任务所配置的备份模式和备份时间点对象以及需要备份的数据源,开启数据源读取器,分析数据源,产生备份对象。
步骤 4 客户端通过执行repl dump命令导出Hive元数据和对应的HDFS文件列表,再将对象从Hadoop HDFS中读取出来。
步骤 5 客户端将读取到的对象发送到存储服务器。
步骤 6 存储服务器将对象是否备份成功返回给客户端,若不成功则标记此副本不完整。
步骤 7 客户端完成所有Hive元数据和HDFS文件备份,上报客户端及备份任务执行情况到管理控制台。
----结束
3.1.3 备份方式
CBR 备份 Hive的备份方式支持完全备份、增量备份。
l 完全备份
将选定的数据源完全备份到指定目的地的备份集中。每次执行时,它不会根据最新的变动进行备份,而是直接将所有的数据备份到备份介质中,并产生一个时间点,用于记录备份的内容。
l 增量备份
仅备份相比上一次完全备份或增量备份有变化的数据,同时产生相应的时间点。在尚未进行完全备份的情况下,进行增量备份时,会自动转为完全备份。
3.1.4 数据保留策略
CBR 为您提供以下三种数据保留策略:
l 数据保留期限:超过设置时间的副本将被自动清理。
l 保留副本个数:超过设置个数的副本将被自动清理。
l 按备份策略的备份周期设置副本保留策略:与备份策略结合使用,根据不同的备份策略设置不同的副本保留数。
3.1.4.1 新建备份数据保留策略
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份数据保留策略】,进入“备份数据保留策略”界面。
步骤 3 在当前界面,单击【新建】按钮,系统弹出“新建数据保留策略”对话框。
步骤 4 在对话框中,根据要求配置如下参数:
1. 名称:输入数据保留策略的名称。
2. 数据保留策略:默认关闭,须开启后才能继续配置。
l 数据保留期限:默认保留 1 年的备份副本,即从使用该策略开始到 1 年后,这期间产生的副本将被保留,超过 1 年的副本将被自动清理。
数据保留期限配置参数范围为 1~999;可以选择年、月、周、天为单位。
l 保留副本个数:默认保留 2 个副本,即同一备份任务的副本超过 2 个后,最旧的副本将被自动清理。保留副本个数配置参数范围为 1~1024。
l 按备份策略的备份周期设置副本保留策略:
− 如果备份策略是按天设置,则默认保留 30 个副本。
− 如果备份策略是按周设置,则默认保留 24 个副本。
− 如果备份策略是按月设置,则默认保留 12 个副本。
− 如果备份策略是按年设置,则默认保留 4 个副本。
− 按照备份策略的备份周期所有参数配置范围均为 1~99999。
− 当任务使用对应备份周期的备份策略后,才使副本保留策略生效。
− 未勾选复选框,则默认保留所有副本。
− 勾选复选框,但任务没有使用此备份周期的备份策略,则保留自动发起的所有副本。
例如:启用 “按年备份策略”,但任务使用的备份策略没有年度备份策略,则保留所有备份策略自动产生的全部副本。
− 如果某一个备份周期的备份策略存在多个,则保留副本数为此类备份周期的所有备份策略产生的副本累加。
例如:任务关联了 4 个年度备份策略,则最终将保留 1 年内的 4 个副本。
l 保留副本个数,开启永久增量的备份任务,“副本”指的是所有备份副本;未开启永久增量的备份任务,“副本”仅指完全备份副本。
l 按备份策略的备份周期设置副本保留策略,仅控制由备份策略自动发起的副本总数,不包含手动发起的副本;如果任务已使用备份策略,但此处未开启相同备份周期的副本保留策略,则默认保留备份策略产生的所有副本;保留副本均为完全备份副本。
步骤 5 确认无误后,单击【确定】按钮完成操作。
----结束
3.1.4.2 关联/移除备份数据保留策略
备份数据保留策略新建完成后,您必须将其应用到备份任务上才可生效。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】→【任务】,进入“备份任务”界面。单击【策略】→【添加备份数据保留策略】。
步骤 3 在对话框中,选择一个适合该任务的数据保留策略。如果任务之前已经配置过其他策略,这次新的策略将替代旧的策略重新生效。
步骤 4 确认无误后,单击【确定】按钮完成操作。
备份任务添加策略后,备份数据保留策略即刻生效。
步骤 5 如果您想要移除备份数据保留策略,请在 “任务” 界面,选中一个或多个已配置备份数据保留策略且状态为 “未启动”的任务,单击【策略】→【移除备份数据保留策略】,系统弹出“提示”对话框。
步骤 6 请您仔细阅读提示内容,确认无误后,单击【确定】按钮完成操作。
备份任务移除策略后,数据保留策略即刻失效。
----结束
3.1.4.3 编辑备份数据保留策略
如果您需要对当前已有的备份数据保留策略相关配置做修改,您可执行以下操作编辑备份数据保留策略。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份数据保留策略】,进入“备份数据保留策略”界面。
步骤 3 在当前界面,选中一条备份数据保留策略,单击【编辑】按钮,系统弹出“编辑数据保留策略”对话框。
步骤 4 在对话框中,您可以关闭数据保留策略,也可以修改数据保留策略条件。确认无误后,单击【确定】按钮完成操作。
----结束
3.1.4.4 删除备份数据保留策略
如果您不再需要某个备份数据保留策略,您可以执行以下操作删除数据保留策略。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份数据保留策略】,进入 “备份数据保留策略” 界面。
步骤 3 在当前界面,选中一条或多条备份数据保留策略,单击【删除】按钮,系统弹出“提示”对话框。
步骤 4 确认无误后,单击【确定】按钮完成操作。
----结束
3.1.4.5 复制备份数据保留策略
如果您想复用某个策略,并修改个别参数时,为了简便操作,您可以复制数据保留策略。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份数据保留策略】,进入“备份数据保留策略”界面。
步骤 3 在当前界面,选中一条数据保留策略,单击【复制】按钮,系统弹出“复制备份数据保留策略”对话框。
在对话框中,根据要求输入备份数据保留策略的名称。
步骤 4 确认无误后,单击【确定】按钮完成操作。
----结束
3.1.5 备份策略
3.1.5.1 新建备份策略
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份策略】,进入“备份策略”界面。
步骤 3 在当前界面,单击【新建】按钮,系统弹出“新建备份策略”对话框。
步骤 4 在对话框中,根据要求配置如下参数:
1. 备份策略名:输入备份策略的名称。
2. 备份周期:默认为每1天,即每天发起一次备份。
− 当备份周期为天,支持的配置参数范围为1~365。
− 当备份周期为周,默认为每周日发起备份,支持选择周一~周日且支持多选。
− 当备份周期为月,默认每月1日发起备份,支持的配置参数范围为1~31。您可以选择“若当月无选定日期则在最后一天触发”。
− 当备份周期为年,默认每年1月1日发起备份,支持选择具体日期发起备份。
3. 重复发起:默认不开启,开启该项,则在任务第一次发起后,系统将按照所设定的持续时间和频率进行重复发起。
重复发起遵循以下原则:
− 持续时间和频率均支持以分钟或小时为单位。
− 如果以分钟为单位,持续时间的配置参数范围为2~59,频率的配置参数范围为1~58。
− 如果以小时为单位,持续时间的配置参数范围为2~24,频率的配置参数范围为1~23。
− 支持持续时间和频率单位不同,但频率必须小于持续时间。
步骤 5 确认无误后,单击【确定】按钮完成操作。
----结束
3.1.5.2 启用/禁用备份策略
备份策略新建完成后,您必须将其应用到备份任务上才可以生效。如果应用了某备份策略的任务不再需要此策略,您也可以选择移除。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】→【任务】,进入“任务”界面。
步骤 3 在当前界面,选中一个或多个任务,单击【策略】→【备份策略】,系统弹出“备份策略”对话框。
步骤 4 在对话框中,单击【添加】按钮,系统弹出“添加”对话框。
步骤 5 在对话框中,选择一个备份策略并选择合适的备份方式,如完全备份或增量备份;选择该策略发起的时间。
步骤 6 确认无误后,单击【确定】按钮回到“备份策略”对话框。
步骤 7 如果需要添加多个备份策略,请再次单击【添加】按钮。
步骤 8 在对话框中,选择一个或多个备份策略,单击【启用】按钮,原来“禁用”状态的策略变为“启用”。
步骤 9 如果您不希望备份策略再次应用于此备份任务,您可以单击【禁用】按钮。您另外可以删除列表中的备份策略。
备份策略禁用后,将即刻失效。
----结束
3.1.5.3 编辑备份策略
如果您需要对当前已有的备份策略相关配置做修改,您可以执行以下操作编辑备份策略。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份策略】,进入“备份策略”界面。
步骤 3 在当前界面,选中一条备份策略,单击【编辑】按钮,系统弹出“编辑备份策略”对话框。
步骤 4 在对话框中,您可以修改备份周期和重新设置重复发起。名称暂不支持修改。
步骤 5 确认无误后,单击【确定】按钮完成操作。
----结束
3.1.5.4 复制备份策略
如果您想复用某个备份策略,并修改个别参数时,为了简便操作,您可以复制备份策略。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份策略】,进入“备份策略”界面。
步骤 3 在当前界面,选中一条备份策略,单击【复制】按钮,系统弹出“复制备份策略”对话框。
步骤 4 在对话框中,根据要求输入备份策略的名称。
步骤 5 确认无误后,单击【确定】按钮完成操作。
----结束
3.1.5.5 导出/导入备份策略
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份策略】,进入“备份策略”界面。
步骤 3 在当前界面,选中一条或多条备份策略,单击【导出】按钮,备份策略将以“.xls”格式保存。
步骤 4 导出后的表格内容如下。
l name:备份策略的名称。
l type:备份策略的类型。
l needInterval:重复发起功能,开启显示为“1”,不开启显示为“0”。
l duration:重复发起中的持续时间。
l durationUnit:持续时间的单位,单位为分钟显示为“1”,单位为小时显示为“2”。
l frequency:重复发起中的频率。
l frequencyUnit:频率的单位,单位为分钟显示为“1”,单位为小时显示为“2”。
l params:备份周期选项的参数值。
l auther:新建该备份策略的用户。
l createdTime:创建该策略的时间。
l updateTime:更新该策略的时间。
步骤 5 如果需要导入策略,请您在本地先根据下载的文档格式编辑好策略的参数。确认无误后,在管理控制台的“备份策略”界面,单击【导入策略】按钮。系统弹出“导入策略”对话框。
步骤 6 在对话框中,单击【浏览】按钮,选择需要导入的策略。确认无误后,单击【确定】按钮完成操作。
步骤 7 导入成功后,“备份策略”界面将显示导入的策略。
----结束
3.1.5.6 删除策略
如果您不再需要某备份策略,您可以执行以下操作删除备份策略。
步骤 1 租户或操作员登录控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【策略】→【备份策略】,进入“备份策略”界面。
步骤 3 在当前界面,选中一条或多条备份策略,单击【删除】按钮,系统弹出“提示”对话框。
步骤 4 仔细阅读警告内容,确认无误后,单击【删除】按钮完成操作。
----结束
3.2 新建备份任务
3.2.1 注意事项
l 请您先仔细阅读《云备份 CBR 操作规范》、《云备份 CBR 风险声明》和1.4限制性功能章节。
l 备份过程中如果遇到难以解决的问题,请您先阅读第6章常见问题处理章节,查看是否存在相同问题的解决方案。如果还是无法解决,请您联系实施工程师进行解决。
3.2.2 新建备份任务步骤
第一步 打开新建备份任务向导
请您根据以下操作打开新建备份任务向导:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“任务”工作区新建备份任务。
步骤 4 “任务”工作区单击“新建”→“数据级备份任务”,打开新建备份任务向导。
----结束
第二步 选择保护对象和客户端
步骤 1 进入新建备份任务页面第一页,“请选择要保护的客户端” → 选择Hive虚拟客户端。“请选择要保护的应用类型”会默认选择【Hive数据仓库】。
步骤 2 单击下一步进入向导2。
----结束
第三步 选择要备份的数据源
步骤 1 在向导2中,展开并选择数据源,单击“+”展开数据源,Hive定时备份任务支持自动发现数据源的功能,第一层为Hive数据仓库,第二层为数据库,第三层为表,选中要备份的数据库或表。
步骤 2 单击下一步进入向导3。
----结束
第四步 选择备份介质并配置备份选项
步骤 1 在向导3中,选择“备份介质”,然后根据需要设置是否开启高级功能选项。
步骤 2 “选择介质”选择“OFS”。
步骤 3 “备份选项”配置永久增量备份、传输和存储加密、数据压缩、重复数据删除、备份数据一致性校验、流量控制、备份自动重试以及强制数据保留。各高级功能选项说明如下:
【永久增量备份】默认不开启,执行增量备份操作才生效,开启了永久增量备份,每一次增量备份都会进行一次时间点合成,形成一个新的永久增量时间点。
【传输和存储加密】默认开启并启用AES256加密算法,可选择启用SM4加密算法,该功能可以和【重复数据删除选项】同时开启。
【数据压缩】默认不开启,开启该选项后默认启用快速压缩,可选择启用强力压缩。选择快速压缩,具有更快的压缩速度。选择强力压缩,具有更高的压缩率。
【重复数据删除】默认为不开启,开启该选项可以启用源端重复数据删除的功能,具体可参考《云备份 CBR 定时数据保护重复数据删除用户指南》获取更多详细信息。
【备份数据一致性校验】默认为不开启,开启该选项可以启用备份数据一致性校验的功能,具体可参考《云备份 CBR 备份数据一致性校验用户指南》获取更多详细信息。
【流量控制】默认不开启,开启后限制代理客户端传输数据的速度,即限制传输速度不超过限速值*客户端个数。
【强制数据保留】默认不开启,开启后保留时长内的数据无法被清理。
【备份自动重试】默认开启且默认自动重试最大次数为3,重试等待时间3分钟,开启后若备份失败则按照配置会自动重新发起备份。
步骤 4 单击下一步进入向导4。
----结束
第五步 配置任务名称和任务备注
步骤 1 在向导4中,配置“任务名称”和“任务备注”。
步骤 2 “任务名称”后方的输入框输入自定义的任务名称。
步骤 3 “任务备注”后方的输入框输入自定义的任务备注。
----结束
第六步 完成新建备份任务向导
步骤 1 向导4中,“任务名称”和“任务备注”配置完成后,在“任务信息”界面中完成备份任务的配置。
步骤 2 任务信息确认,可选择任务生成立即执行。单击确认会弹出新建任务成功。
----结束
3.2.3 监控
任务发起备份后,您可以在“监控”工作区观察任务的实时执行情况,请您根据以下操作查看任务的执行情况:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“监控”工作区查看任务的实时信息。
步骤 4 “监控”工作区可以直接观察任务的执行情况,也可以单击任务后方的“详情”进一步观察任务和客户端的执行情况。
步骤 5 “详情”界面分为两个部分“执行概要”、“执行输出”,您可以在两个部分之间切换以查看具体信息。
步骤 6 “详情”界面单击“收起”可以收起“详情”。
----结束
3.2.4 历史记录
备份任务执行结束后,您可以进入“历史记录”工作区查看任务最终的执行情况。
3.2.4.1 查看历史记录
请您根据以下操作查看历史记录:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“历史记录”工作区查看历史记录。
步骤 4 “历史记录”工作区可以直接观察任务的执行结果,也可以单击任务后方的“详情”进一步查看任务的“执行概要”以及“执行输出”。
步骤 5 当您进入“详情”界面的“执行输出”部分时,为了方便您查看执行输出和客户端执行输出,您可以单击“导出”,将执行输出导出到本地进行查看。
步骤 6 单击“导出”后,您可将历史记录中备份任务的执行输出导出为TXT、XLS或PDF,请您根据自己的需求选择导出格式。
----结束
3.2.4.2 删除历史记录
为了避免任务历史记录数量越来越多,给您带来查询性能损耗,建议您适当的进行历史记录的删除,您将有两种删除历史记录方式:通过历史记录保留策略工具删除,具体操作详见《云备份 CBR 工具使用指导》的“历史记录保留策略工具指导”章节和手动删除历史记录,其操作如下:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“历史记录”工作区删除历史记录。
步骤 4 “历史记录”工作区勾选需要删除的历史记录,单击“删除”,进入“警告”界面。
步骤 5 “警告”界面,单击“删除”,退出“警告”界面。
步骤 6 历史记录删除成功后,“历史记录”界面不能再看到删除的历史记录。
支持批量删除历史记录。
----结束
3.3 管理备份任务
3.3.1 查看备份任务
请您根据以下操作查看备份任务:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“任务”工作区查看备份任务详情。
步骤 4 “任务”工作区,单击备份任务后方的“详情”,打开“详情”界面。
步骤 5 “详情”界面分为四个部分“基本信息”、“选项”、“数据源”以及“策略”,请您可以根据自己的需求进行查看。
----结束
3.3.2 启动备份任务
启动备份任务即对任务发起备份,将备份任务的数据源备份到存储服务器中,您可以有两种启动方法:
l 添加备份策略,自动启动,具体操作参阅3.1.5 备份策略。
l 手动启动,操作步骤如下:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“任务”工作区启动备份任务。
步骤 4 “任务”工作区选中备份任务,单击“启动”。
步骤 5 “启动任务”界面中,单击“备份方式”下拉框,选择您需要的备份方式:完全备份、增量备份。
步骤 6 “执行备注”后方的输入框输入执行备份,然后单击“启动”。
注意:若单击【启动】出现“Hadoop备份未授权”的错误,请联系管理员添加Hadoop备份授权。
步骤 7 任务启动成功后,您可以在“任务”工作区看到任务的状态变为“正在运行”,您可以进入“监控”工作区实时观察任务执行情况,具体请参阅3.2.3。
----结束
3.3.3 停止备份任务
您需要停止备份任务时,请您执行以下操作:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“监控”工作区停止备份任务。
步骤 4 “监控”工作区选中备份任务,单击“停止”,打开“警告”视图。
步骤 5 “警告”视图中,单击“停止”,退出“警告”界面。
步骤 6 请稍等几秒钟,您会看到单击停止的任务已不在“监控”工作区,此时您可以进入“历史记录”工作区,查看到任务运行结果为已停止。
----结束
3.3.4 编辑备份任务
当您需要变更备份任务的信息时,请您根据以下操作编辑备份任务:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”界面分为三个工作区“任务”、“监控”以及“历史记录”,请您在“任务”工作区编辑备份任务。
步骤 4 “任务”工作区勾选备份任务,单击“编辑”,打开编辑备份任务向导。
步骤 5 向导1中,所有选项均不支持编辑。
步骤 6 向导2中,所有选项均支持编辑,编辑规则同3.2.2。
步骤 7 向导3中,“备份介质”、“永久增量备份”、“备份数据一致性校验”、“传输和存储加密”、“数据压缩”以及“重复数据删除”不支持编辑,“流量控制”、“强制数据保留”以及“备份自动重试”支持编辑,编辑规则同3.2.2。
步骤 8 向导4中,“任务名称”不支持编辑,“任务备注”支持编辑,编辑规则同3.2.2。
步骤 9 向导4中单击“完成”,关闭编辑备份任务向导。
步骤 10 任务编辑成功后,您可以根据3.3.1查看任务最新详情。
任务编辑成功后,下次备份将根据编辑后的信息执行任务。
----结束
3.3.5 删除备份任务
当您不再需要备份任务时,请您根据以下操作删除备份任务:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据备份】,打开“数据备份”界面。
步骤 3 “数据备份”视图分为三个工作区“任务”、“监控”以及“历史记录”,请您在“任务”工作区删除备份任务。
步骤 4 “任务”工作区勾选备份任务,单击“删除”,打开“警告”界面。
步骤 5 “警告”界面的输入框输入“YES”,然后单击“删除”,退出“警告”界面。
----结束
3.3.6 清理备份数据
若您想要新建清理备份数据任务,您必须保证备份数据的存在。请您根据以下操作新建数据清理任务:
第一步 启动新建清理任务向导
请您根据以下操作启动新建数据清理任务向导:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据清理】,进入“数据清理”界面。
步骤 3 在当前界面,单击【新建】按钮,启动新建清理备份数据任务向导。
----结束
第二步 选择要清理的备份任务
步骤 1 在向导1中,选择您要清理任务所在的“备份介质”以及对应的“备份任务”。
步骤 2 选择备份介质(OFS卷)。
步骤 3 单击【选择】按钮,进入选择备份任务弹窗中选择备份任务。
步骤 4 “备份介质”与“备份任务”设置完成后,单击【下一步】按钮。
----结束
第三步 选择要清理的数据
步骤 1 在向导2中,选择需要清理的副本。
您可以选择清理全部副本。
您也可以选择清理指定副本。
步骤 2 “请选择要清理的副本”设置完成后单击【下一步】按钮。
----结束
第四步 填写任务备注
步骤 1 在向导3中,配置“任务名称”和“任务备注”。
1. “任务名称”后方为默认任务名称。
2. “任务备注”后方输入框输入自定义的任务备注。
3. “任务名称”与“任务备注”设置完成后,单击【完成】按钮。
----结束
第五步 使用向导完成操作
步骤 1 向导3中“任务名称”和“任务备注”配置完成后,在“数据清理信息确认”界面中完成清理备份数据任务的配置。
步骤 2 在向导3中单击完成,打开“数据清理信息确认”界面。如果您确认删除选中的备份任务数据,请在在输入框中输入“YES”,单击【确定】按钮。此处区分大小写,必须填大写半角英文字母。
步骤 3 清理备份数据任务新建成功后,您可在“数据清理”界面查看新增的清理备份数据任务记录。
----结束
4 Hive定时恢复
4.1 关于恢复
在 CBR 中,恢复是一种任务驱动型进程。执行恢复之前,您需要先新建恢复任务。恢复任务是恢复需求的一个配置集合单元。恢复任务指定了从哪个存储恢复数据、恢复位置、目标数据库以及恢复选项等,请参阅4.3.2进行恢复任务的新建,恢复任务新建成功后您可对其进行管理,具体参阅4.4管理恢复任务。
4.2 Hive定时恢复支持功能
表4-1 Hive定时恢复支持功能
功能 |
子功能 |
支持 |
备注 |
恢复 |
原机恢复 |
|
恢复粒度:数据库、表 |
异机恢复 |
|
||
替换、跳过或重命名 |
|
||
恢复至原数据库 |
|
||
恢复至其它数据库 |
|
4.2.1 恢复原理
CBR 恢复 Hive数据仓库,原理如下所示:
步骤 1 管理控制台启动恢复任务。
步骤 2 管理控制台下发恢复任务以及需要恢复的时间点给客户端。
步骤 3 客户端根据管理控制台下发的恢复任务以及需要恢复的时间点发送到存储服务器。
步骤 4 存储服务器将时间点是否可用以及需要恢复时间点的元数据发送给客户端。
步骤 5 客户端确认需要恢复的时间点可用,并取得任务需要的元数据后开启数据源读取器,分析数据源,产生恢复对象;客户端通过执行repl load命令导入Hive元数据到临时库,rename临时库到目标库,并将HDFS文件恢复至指定HDFS目录。
步骤 6 Hadoop Hive恢复结束并将执行结果返回给客户端。
步骤 7 客户端完成所有Hive元数据和HDFS文件恢复,上报客户端及恢复任务执行情况到管理控制台。
----结束
4.3 新建恢复任务
4.3.1 注意事项
l 请您先仔细阅读《云备份 CBR 软件兼容性列表》和1.5限制性功能章节。
l 恢复过程中如果遇到难以解决的问题,请您先阅读第6章常见问题处理章节,查看是否存在相同问题的解决方案。如果还是无法解决,请您联系实施工程师进行解决。
l 发起恢复任务前,请确认恢复目的集群正常启动。
4.3.2 新建恢复任务步骤
CBR 中,恢复是一种任务驱动型进程,执行恢复之前,您需要先新建恢复任务,请您根据以下操作新建恢复任务:
第一步 打开新建恢复任务向导
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据恢复】→【恢复备份数据】,进入“恢复备份数据”界面。
步骤 3 在当前界面,单击【新建】按钮,进入新建恢复任务向导。
----结束
第二步 选择备份介质与要恢复的数据
步骤 1 在向导1中,请依次选择备份介质和需要恢复的备份任务。
1. “请选择备份介质”选择本地“OFS”。
2. 从“备份任务”中选中一条备份数据。
----结束
第三步 选择时间点和数据源
步骤 1 在向导2中,选择“选择时间点”,然后选择“数据源”。
步骤 2 单击“选择时间点”后方的【选择】按钮,打开“请选择时间点”对话框。在对话框中选择一个需要恢复的时间点。
步骤 3 时间点选择成功后,您会看到“选择时间点”后方的方框中展示了您选择的时间点,且“数据源”下方展示数据源tree。
步骤 4 依次展开“数据源”下方的数据源tree,勾选需要恢复的数据。根据需要选择添加要过滤的数据。
----结束
第四步 选择恢复方式并进行恢复配置
步骤 1 在向导3中,选择“恢复目的地”并配置“恢复选项”,若第二步只选择部分数据库或表,第三步界面中会触发目标数据库配置项,可以给指定数据库下所有表或指定表配置要恢复的目标数据库。
步骤 2 单击【下一步】按钮。
----结束
第五步 配置任务名称和任务备注
步骤 1 在向导4中,配置“任务名称”和“任务备注”。
步骤 2 “任务名称”默认已配置,不支持修改。
步骤 3 “任务备注”后方的输入框输入自定义的任务备注。
----结束
第六步 完成新建备份任务向导
步骤 1 向导4中,“任务名称”和“任务备注”配置完成后,在“任务信息确认”界面中完成恢复任务的配置。
步骤 2 向导4中,单击“完成”,打开“任务信息确认”界面。
步骤 3 默认已勾选 “任务生成后立即执行”,输入框中填写“YES”,单击“确定”,关闭向导。
步骤 4 恢复任务新建成功后,您可以看到“恢复备份数据”工作区新增一条恢复任务记录。
----结束
4.4 管理恢复任务
4.4.1 查看恢复任务
恢复任务默认新建成功立即执行,请您根据以下操作查看恢复任务:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据恢复】,进入“数据恢复”界面。
步骤 3 “数据恢复”界面分为两个工作区“恢复备份数据”和“恢复归档数据”,请您在“恢复备份数据”工作区新建恢复任务。
步骤 4 “恢复备份数据”工作区,单击恢复任务后方的“详情”,打开“详情”界面。
步骤 5 “详情”界面分为三个部分:“任务详情”、“执行概要”以及“执行输出”。您可以根据自己的需求进行查看。
步骤 6 当您进入“详情”界面的“执行输出”部分时,为了方便您查看执行输出,您可以单击“导出”,将执行输出导出到本地进行查看。
步骤 7 单击“导出”后,您可将恢复备份数据历史记录的执行输出导出为TXT、XLS和PDF,请您根据自己的需求选择导出格式。
----结束
4.4.2 停止恢复任务
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据恢复】,打开“数据恢复”界面。
步骤 3 “数据恢复”界面分为两个工作区“恢复备份数据”和“恢复归档数据”,请您在“恢复备份数据”工作区停止恢复任务。
步骤 4 “恢复备份数据”工作区选中恢复任务,单击“停止”,打开“警告”界面。
步骤 5 “警告”界面中,单击“停止”,退出“警告”界面。
步骤 6 请稍等一分钟,您将会查看到任务运行结果为已停止。
----结束
4.4.3 删除恢复任务
当您不想保留恢复任务历史记录时,您可以执行以下操作删除恢复任务:
步骤 1 租户或操作员登录管理控制台。
步骤 2 单击左侧导航栏【定时数据保护】→【数据恢复】,打开“恢复备份数据”界面。
步骤 3 “恢复备份数据”界面勾选需要删除的恢复任务,单击“删除”,进入“删除”界面。
步骤 4 “删除”界面,输入框输入“YES”,单击“删除”,退出“删除”界面。
步骤 5 恢复任务删除成功后,“恢复备份数据”界面不能再看到删除的恢复任务。
l 支持批量删除恢复任务;
l 任务运行结束后才能执行删除操作。
----结束
5 典型场景
5.1 Hive备份数据异机恢复场景
若您备份的Hive集群环境已损坏,不可使用;您可以将原Hive集群的备份数据恢复至其它Hive集群。
此时,您可以参考4.3.2新建恢复任务步骤,选择恢复至其他Hive虚拟客户端。
注意:不支持跨Hive版本恢复,例如:不支持Hive 3.1.0恢复到Hive 3.1.1。
5.2 无代理模式场景下备份恢复Hive数据仓库
如果您需要将客户端软件安装在Hadoop集群之外的其他Linux主机上,可以使用无代理模式备份恢复Hive数据仓库,此时对无代理客户端有如下要求:
1. 无代理客户端操作系统是Hive定时备份已兼容的操作系统版本,详情请参考《云备份 CBR 软件兼容性列表》。
2. 在无代理客户端上安装jdk并加入环境变量,安装路径与目标集群保持一致。
3. 无代理客户端与Hadoop集群网络互通,且已添加Hadoop集群中各节点域名映射。
4. 无代理客户端需要与目标集群保持时间同步,建议加入目标集群NTP系统。
5. 无代理客户端已安装与目标Hadoop集群相同版本的Hadoop软件(安装客户端时需要填写相关lib包路径)。
6. 若目标集群已开启Kerberos,无代理客户端需要加入目标集群Kerberos系统,并能认证通过。
7. 同步目标集群Hive资源文件及配置文件至无代理客户端。
8. 无代理客户端需要安装用于连接hive的beeline工具,并将beeline安装目录加入系统环境变量。
配置完成后要求无代理客户端使用hdfs命令能远程访问目标集群HDFS文件系统,命令如下:
确保以上无误后,您可以参考第1章节安装客户端,并参考第2、3章节配置备份任务,若能备份成功则说明无代理客户端配置成功。
5.3 Hive备份数据远程复制场景
您在管理控制台 A 存在一组备份数据,您需要将管理控制台 A 的若干备份数据同步到管理控制台 B ,以达到异地容灾的效果。
此时,您可以参考《云备份 CBR 定时数据保护远程复制用户指南》将管理控制台 A 的备份数据同步到管理控制台 B ,并可通过目的端发起数据恢复至Hive集群,以达到异地容灾的效果。
5.4 备份存储空间容量较小的情况下,备份任务应如何配置
如果您遇到如下场景:
您的Hive备份数据占用空间越来越大,而管理保存数据的成本及数据中心空间和能耗也变得越来越严重,随着时间的推移冗余数据越来越多时,您迫切希望缓解存储系统的空间增长,缩减数据占用空间,降低成本,最大程度地利用已有资源。
此时,您可以在创建任务时,进行以下配置:
l 开启重复数据删除
您可以参考《云备份 CBR 定时数据保护重复数据删除用户指南》使用重复数据删除功能,创建重删卷、指纹池以及指纹库,参考3.2.2新建备份任务步骤将Hive备份任务开启重复删除功能,参考3.2.4历史记录章节查看备份任务的执行概要获悉备份任务的重删率。开启重删功能后,备份任务的首次备份重删率在0%~70%,多次备份的重删率在70%~100%。
l 开启数据压缩
您可以参考3.2.2新建备份任务步骤章节,将备份任务的压缩选项开启,选择快速压缩或强力压缩选项。快速压缩具有更快的压缩速度;强力压缩具有更高的压缩率。数据压缩会占用一定的CPU资源,建议根据您的环境需求选择相应的数据压缩方式。您可参考3.2.4历史记录章节查看备份任务的执行概要获悉备份任务的实际备份数据量。开启快速压缩时,备份任务的数据压缩比在1~2左右;开启强力压缩时,备份任务的数据压缩比在1~3左右。
l 为备份任务配置数据保留策略
您可以参考3.1.4数据保留策略章节配置数据保留策略。系统将根据您的配置,在每次任务执行时删除您不需要的数据。缩减数据占用空间的压力。
注意:重复数据删除和数据压缩均会占用系统CPU和内存资源,请在确保服务器系统资源充足的情况下,进行以上特性功能的开启。
5.5 在网络资源紧张的情况下,备份任务应如何配置
若您的备份数据网络通道资源紧张,您希望在此场景下继续Hive的备份任务。
此时,您可以在创建任务时,进行以下配置:
l 设置流量限制,限制备份的速度
您可以参考3.2.2新建备份任务步骤将Hive的备份任务开启流量限制功能,参考3.2.4历史记录章节查看备份任务的执行概要获悉备份任务的传输速率。
l 设置合理的备份策略,使大容量数据的备份任务在业务不繁忙的时间段进行
您可以参考3.1.5备份策略章节创建策略,根据业务需要设置合理的备份策略。
l 开启重复数据删除
您可以参考《云备份 CBR 定时数据保护重复数据删除用户指南》使用重复数据删除功能,创建重删卷、指纹池以及指纹库,参考3.2.2新建备份任务步骤将Hive的备份任务开启重复删除功能,参考3.2.4历史记录章节查看备份任务的执行概要获悉备份任务的重删率。开启重删功能后,备份任务的首次备份重删率在0%~70%,多次备份的重删率在70%~100%。
l 开启数据压缩
您可以参考3.2.2新建备份任务步骤章节,将备份任务的压缩选项开启,选择快速压缩或强力压缩选项。快速压缩具有更快的压缩速度;强力压缩具有更高的压缩率。数据压缩会占用一定的CPU资源,建议根据您的环境需求选择相应的数据压缩方式。您可参考3.2.4历史记录章节查看备份任务的执行概要获悉备份任务的实际备份数据量。开启快速压缩时,备份任务的数据压缩比在1~2左右;开启强力压缩时,备份任务的数据压缩比在1~3左右。
注意:重复数据删除和数据压缩均会占用系统CPU和内存资源,请在确保服务器系统资源充足的情况下,进行以上特性功能的开启。
5.6 如何保证Hive备份数据传输和存储安全
若您希望确保Hive备份在数据传输过程和存储时的安全性。
此时,你可以参考3.2.2新建备份任务步骤章节,将备份任务的加密选项开启,选择AES256或SM4加密算法。数据的加密计算由客户端完成,计算完成后将数据传输至存储服务器。数据在传输和存储中始终保持加密状态。数据恢复时,存储的数据将直接发送至目标客户端,再由客户端进行数据的解密操作。由于加密功能需要消耗一定的系统资源,开启数据加密的备份任务会对备份恢复的效率存在一定的影响。一般情况下,开启AES256加密算法的备份任务性能较SM4加密算法更高,建议根据您的环境需求选择相应的加密方式。
注意:其他典型场景可参考《云备份 CBR Hadoop 文件系统备份恢复用户指南》第4章。
6 常见问题处理
6.1 创建Hive虚拟客户端失败,如何排查问题
创建Hive虚拟客户端失败时,页面会提示报错内容,您可根据报错内容进行判断排查。
l Q1. 创建虚拟客户端时报错:hiveServer2Principal参数有误。
【问题原因】连接了开启Kerberos的Hive环境,但HiveServer2 principal参数未填写。
【解决方案】正确填写HiveServer2 principal参数。
l Q2. 创建虚拟客户端时报错:服务调用出错。
【问题原因】创建Hive虚拟客户端时选择了较多的代理客户端,或创建Hive虚拟客户端时填写的信息不正确,导致连接认证超时。
【解决方案】创建虚拟客户端时,适当减少代理客户端的数量。同时确保创建Hive虚拟客户端时填写的信息正确无误。
l Q3. 创建虚拟客户端时报错:客户端连接HDFS失败,原因:HDFS执行kinit失败。
【问题原因】
1. 填写的Keytab路径不存在。
2. 填写的Keytab路径不正确。
【解决方案】
1. 正确填写Keytab路径信息。
2. 正确填写Keytab路径信息。
l Q4. 创建虚拟客户端时报错:客户端连接HDFS失败,可能原因:1.输入信息有误,2.hadoop未启动。
【问题原因】
1. NameNode IP、端口号、HDFS URL、HDFS用户名等信息填写错误。
2. Hadoop集群异常。
【解决方案】
1. 正确填写HDFS配置相关信息。
2. 确保Hadoop集群正常。
l Q5. 创建虚拟客户端时报错:客户端连接Hive失败,可能原因:1.输入信息有误,2.hiveserver未启动。
【问题原因】
1. HiveServer2 principal、ZooKeeper IP/域名(或HiveServer IP/域名)、ZooKeeper端口号(或HiveServer端口号)、ZooKeeper namespace、HDFS用户名等信息填写错误。
2. Hive集群异常。
3. 客户端连接Hive超时。
4. 客户端环境不存在beeline命令。
【解决方案】
1. 正确填写Hive配置相关信息。
2. 确保Hive集群正常。
3. 酌情增加所有Hive客户端上Hive配置文件中CONNECT_TIMEOUT的值(其中CONNECT_TIMEOUT为客户端连接Hive的超时时间,单位为毫秒,取值范围为0-2147483647)。注意修改时需把前面的“!”去掉,修改后重启客户端服务,重新创建Hive虚拟客户端。配置文件地址为客户端安装目录/etc/ClientService/AggregateApp/hive_backup.config。
4. 请参考1.2 Hive配置章节,先安装beeline工具,并将beeline安装目录加入系统环境变量后,再安装CBR客户端。
6.2 Hive定时备份与数据恢复报错,如何排查问题
Hive定时备份与数据恢复任务报错时,您可通过单击任务详情,查看执行信息中的报错内容进行判断排查。
l Q1. 备份过程中报错:Hive参数hive.metastore.transactional.event.listeners校验失败。
【问题原因】hive.metastore.transactional.event.listeners参数值未配置或配置错误。
【解决方案】配置hive.metastore.transactional.event.listeners参数值为org.apache.hive.hcatalog.listener.DbNotificationListener,并重启Hive服务。详见1.2 Hive配置。
l Q2. 备份过程中报错:Invalid config error:Fully qualified path for ‘hive.repl.replica.external.table.base.dir’ is required for hive。
【问题原因】hive.repl.replica.external.table.base.dir参数值未配置或配置错误。
【解决方案】正确配置hive.repl.replica.external.table.base.dir参数值,并重启Hive服务。详见1.2 Hive配置。
l Q3. 备份过程中报错:Hive连接失败,原因:Name node is in safe mode。
【问题原因】Hadoop启动过程中,初始阶段会进入安全模式,当Hadoop处于安全模式时,Hive无法备份,需等待安全模式结束后方能成功备份。
【解决方案】等待安全模式结束再进行备份,或者手动解除安全模式(不建议),手动解除安全模式方法:hdfs dfsadmin -safemode leave。
l Q4. 备份/恢复过程中报错:获取hive执行结果超时。
【问题原因】Hive备份/恢复数据源中表或数据库的数量较多,执行beeline或repl dump/load命令超时。
【解决方法】酌情增加所有Hive客户端上Hive配置文件中REPL_TIME_OUT与BEELINE_TIMEOUT的值(其中REPL_TIME_OUT为执行repl dump/load命令的超时时间,BEELINE_TIMEOUT为执行beeline命令的超时时间。两个参数单位都为毫秒,取值范围为0-2147483647)。注意修改时需把前面的“!”去掉,修改后重启客户端服务,重新发起备份/恢复任务。配置文件地址为客户端安装目录/etc/ClientService/AggregateApp/hive_backup.config。
l Q5. 备份过程中报错:文件xxx获取checksum值失败。
【问题原因】Hive备份的数据文件较大时,获取文件的checksum值超时。
【解决方法】酌情增加所有Hive客户端上Hive配置文件中CHECKSUM_TIME_OUT的值(CHECKSUM_TIME_OUT为获取文件checksum值的超时时间,单位为毫秒,取值范围为0-2147483647)。注意修改时需把前面的“!”去掉,修改后重启客户端服务,重新发起备份/恢复任务。配置文件地址为客户端安装目录/etc/ClientService/AggregateApp/hive_backup.config
l Q6. 恢复过程中抛警告:hive数据库dbname的表tbname跳过不恢复。
【问题原因】选择了不同数据库的同名表恢复至同一个数据库,后恢复的表会跳过不恢复。
【解决方案】创建Hive恢复任务时,选择不同数据库的同名表恢复至不同的数据库。
l Q7. 恢复过程中报错:Hive连接失败,原因:Name node is in safe mode。
【问题原因】Hadoop启动过程中,初始阶段会进入安全模式,当Hadoop处于安全模式时,Hive无法恢复,需等待安全模式结束后方能成功恢复。
【解决方案】等待安全模式结束再进行恢复,或者手动解除安全模式(不建议),手动解除安全模式方法:hdfs dfsadmin -safemode leave。
注意:其他FAQs可参考《云备份 CBR Hadoop 文件系统备份恢复用户指南 01》第5章。
- 点赞
- 收藏
- 关注作者
评论(0)