- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

其疾如风，GaussDB(DWS)增量备份核心设计

我的橘子呢发表于 2022/11/30 11:47:49 2022/11/30

【摘要】增量备份只备份基于上一个备份集到当前阶段的数据变化文件，相比于全量备份所用的时间更少，能够节约大量的空间资源，因此一直是客户的常规备份手段。为了实现数据的完整性与一致性，正确识别并备份增量数据文件是至关重要的，Gauss(DWS)数据库内核的事务日志功能与CBM设计可以帮助Roach工具快速准确识别增量期间数据文件的变换信息，从而快速实现增量备份的任务。

1. 前言

适用版本：【8.0.0（及以上）】

增量备份指备份基于上一个备份集到当前阶段的数据变化文件，相比于全量备份所用的时间更少，能够节约大量的空间资源，因此一直是客户的常规备份手段。为了实现数据的完整性与一致性，正确识别并备份增量数据文件是至关重要的，Gauss(DWS)数据库内核的事务日志功能与CBM设计可以帮助Roach工具快速准确识别增量期间数据文件的变换信息，从而快速实现增量备份的任务

2.认识增量备份

GaussDB(DWS)数仓的备份恢复工具Roach支持集群级增量备份。全量备份会将源数据完整备份，而增量备份仅将上次备份后所作的更改进行备份，这里的上次备份可以使全量备份，也可以是全量备份后的增量备份。需要注意的是，增量备份的基础始终是全量备份，如果一次全量备份之后进行了全量恢复，则不能再基于该全量备份进行增量备份，必须重新进行全量备份然后基于新的全量备份进行增量备份。增量备份分为两种：累积增量备份和差分增量备份。

2.1 累积增量备份

累积增量备份：如果一次全量备份后的多次增量备份，指定的prior-backup-key始终为全量备份的backup-key，即所有的增量备份都是基于全量备份来进行的，那么这些增量备份就是累积增量备份，累积增量备份均是基于最近一次全量备份进行的，如图1所示。

图1 累积增量备份示意图

2.2 差分增量备份

差分增量备份：如果一次全量备份后的多次增量备份，指定的prior-backup-key均为上一次备份（可能是全量备份也可能增量备份）的backup-key，即此次备份是基于上一次备份集来进行的，那么这些增量备份就是差分增量备份，差分增量备份均是基于最近一次备份进行的，如图2所示。

图2 差分增量备份示意图

3.增量备份之CBM设计

增量备份只需要备份上一备份节点到当前时间发生变化的数据文件，为了实现备份数据的完整性与一致性，正确识别并备份增量数据文件是至关重要的，作为增量备份的核心设计，Gauss数据库内核的事务日志功能与cbm设计可以帮助Roach工具快速准确识别增量期间数据文件的变换信息，为快速准确完成增量备份提供了有力保障。

3.1 WAL与事务日志

为了保证数据的一致性和完整性，在对数据进行相关操作之前都会将具体的操作记录下来，持久化到可靠存储中，然后再进行具体的数据操作，这就是所谓的WAL（Write Ahead Logging），记录的相关操作称为XLOG日志，每一条日志记录都由LSN进行唯一标识。这样做的好处是事物的记录被提前记录并保存起来，在因一些外部原因（比如断电、操作系统失败等）导致操作失败后，我们可以通过保存的事物日志将这些操作重新执行一遍，保证数据不会丢失。相关操作如图3所示。

图3 WAL操作示意图

3.2 Checkpoint操作

当系统运行时间较长的时候，由于操作较多，日志文件的数量也较多。如果每次利用日志进行恢复操作都会耗费大量的时间，为了节约时间同时减少不必要的恢复操作，引入了checkpoint的概念。checkpoint表示在此操作之前，相关数据已经被保存到永久存储中，即使系统故障，这部分数据也不会丢失，因此恢复的时候只要从checkpoint操作之后根据日志执行恢复操作就可以了。checkpoint本身也是一条xlog记录，该记录包含了redo点的位置，因此，每次恢复数据时，先从xloh记录里找到最近的一次checkpoint记录，并根据该记录找到相应的redo点位置，这就是执行本次恢复的起始点位置。如图4所示，checkpoint操作记录了redo点的位置。

图4 Checkpoint操作示意图

3.3 CBM设计

基于上述功能，由于数据的所有变化都被记录在了xlog中，Gauss数据库内核通过增加常驻的CBM writer线程，持续不断地对新增的xlog进行解析，识别并记录哪些数据数据页面被修改。CBM记录的生成过程如图5所示。

图5 CBM生成示意图

CBM writer线程的工作流程为：

进程启动时即开启CBM writer功能
在startup线程刚启动时，其根据已经解析出来的CBM文件，来决定CBM writer开始解析的起始LSN位置。每次执行到checkpoint末尾是，会设置CBM writer线程的latch。CBM writer线程等待latch被设置，然后进行一轮日志解析。
通过动态reload GUC参数，开启CBM writer功能
由于是动态开启的CBM writer功能，因此startup线程没有初始化CBM解析的起始位置。打开enable_cbm_writer开关的同时，会将CBM强制初始化的标志置为true。当CBM writer线程启动之后，其第一次解析中，会强制初始化获得解析的起始lsn。

3.4 CBM文件的命名格式

CBM文件保存在data目录的pg_cbm文件夹下，命名方式为：pg_xlog_seqnum_startlsn_endlsn.cbm。如图6所示。

图6 CBM文件格式

seqnum文件序号表示这是第几个cbm文件，当一个cbm文件的大小超过100M时，将会切换到下一个cbm文件，并将seqnum加1。
startlsn为本cbm文件内容对应xlog记录的起始lsn；
endlsn为本cbm文件切换时最后一次解析的截止lsn，若一个cbm文件还没有切换，那么endlsn为0。

3.5 CBM对外接口函数

a. pg_cbm_tracked_location

说明：用于查询cbm已经解析到的lsn位置
入参：无
返回值：cbm已经解析到的lsn位置

b. pg_cbm_get_merged_file

说明：用于将指定lsn范围之内的cbm文件合并成一个cbm文件
入参：startlsn，指定的起始lsn；endlsn，指定的结束lsn
返回值：合并完的cbm文件名

c. pg_cbm_get_changed_block

说明：用于将指定lsn范围之内的cbm文件合并一个表，并返回表的各行记录
入参：startlsn，指定的起始lsn；endlsn，指定的结束lsn
返回值：合并完的表的记录，表的结构如下

item	含义
merged_start_lsn	合并起始的lsn
merged_end_lsn	合并截止的lsn
tablespace_oid	表空间oid
database_oid	库oid
relfilenode	表的relfilenode
fork_number	表的fork number
rel_dropped	表是否被删除
rel_truncated	表是否被截断
truncate_blocknum	（如有）表被截断后的页面数
changed_block_number	有多少页被修改
changed_block_list	备修改的页号的列表

d. pg_cbm_recycle_file

说明：删除不再使用的cbm文件
入参：lsn，删除该lsn以前的cbm文件
返回值：删除截止的lsn

4. CBM使用实践

(1)找到当前xlog的LSN位置，并将cbm的解析位置设置为该LSN的位置。

图7 设置CBM解析起始位置

(2)插入数据后获取当前cbm解析位置。

图8 设置CBM解析终止位置

(3)根据插入后数据前后的CBM解析位置，获取变化的数据文件，获取相关信息。

图9 获取变化数据文件

5.总结

增量备份是重要的常规备份策略，正确快速识别增量变化文件的相关信息对增量备份至关重要。作为增量备份的核心设计，事务日志和CBM相关功能为增量备份的快速高效进行提供了有力支撑，本文对CBM的相关设计进行了介绍，并利用CBM的对外接口演示了CBM的相关功能。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入