如何使用CDM完成文件类数据增量迁移
【摘要】 文件增量迁移文件增量迁移是指:筛选源端的部分数据迁移到目的端,目前cdm支持使用时间宏、通配符和正则表达式的筛选方式。增量迁移方式增量导出全部新增的文件适用场景:源端和目的端数据源都为文件类型(OBS/OSS/HDFS/FTP/SFTP/NAS)。关键配置:跳过重复文件+5.6 配置定时任务。前提条件:无。增量导出指定目录的文件适用场景:源端数据源为文件类型(OBS/OSS/HDFS/FTP...
增量迁移方式
增量导出全部新增的文件
适用场景:源端和目的端数据源都为文件类型(OBS/OSS/HDFS/FTP/SFTP/NAS)。
关键配置:跳过重复文件+5.6 配置定时任务。
前提条件:无。
增量导出指定目录的文件
适用场景:源端数据源为文件类型(OBS/OSS/HDFS/FTP/SFTP/NAS),目的端没有要求。这种增量迁移方式,只追加写入文件,不会更新或删除已存在的记录。
关键配置:文件/路径过滤器+5.6 配置定时任务。
前提条件:源端目录或文件名带有时间字段。
增量导出指定时间以后的文件
适用场景:源端数据源为文件类型(OBS/OSS/HDFS/FTP/SFTP/NAS),目的端没有要求。这里的指定时间,是指文件的修改时间,当文件的修改时间晚于指定的时间,CDM才迁移该文件。
关键配置:时间过滤器+5.6 配置定时任务。
前提条件:无。
特色功能
跳过重复文件
参数位置:在5.1 新建表/文件迁移作业时,如果源端和目的端数据源都为文件类型,那么目的端作业参数中可以看到“重复文件处理方式”参数,该参数可选择:替换重复文件、跳过重复文件或停止任务。
参数原理:当源端和目的端存在文件名、文件大小都相同的文件时,CDM才会判定该文件为重复文件。
配置样例:
源目录或文件:配置为一个目录的路径,CDM可以将该目录下的所有文件导入到目的端。
文件格式:选择“二进制格式”,CDM不解析文件直接原样复制,适合文件到文件的迁移。
重复文件处理方式:选择“跳过重复文件”,
配置作业定时自动执行。
这样就可以定期把新增的文件导入到目的端目录,实现增量同步。
2. 文件/路径过滤器
参数位置:在5.1 新建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或时间过滤器。
参数原理:“通配符”选择“是”时,CDM就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。
配置样例:例如源端文件名带有时间字段“2017-10-15 20:25:26”,这个时刻生成的文件为“/opt/data/file_20171015202526.data”,则在创建作业时,参数配置如下:
文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。
过滤类型:选择“通配符”。
文件过滤器:配置为*${dateformat(yyyyMMdd,-1,DAY)}*(这是CDM支持的日期宏变量格式,详见9.4 使用时间宏变量完成增量同步)。
配置作业定时自动执行,“重复周期”为1天。
3. 时间过滤器
参数位置:在5.1 新建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业配置下的高级属性中,“时间过滤器”参数选择“是”。
参数原理:“修改时间”参数中输入一个时间值后,只有修改时间晚于该时间的文件才会被CDM迁移。
配置样例:例如需要CDM只同步2018年11月2日以后生成的文件到目的端,则参数配置如下:
时间过滤器:选择为“是”。
修改时间:配置为2018-01-01 00:00:00(格式要求为yyyy-MM-dd HH:mm:ss)。
重复文件处理方式:选择“跳过重复文件”。
配置作业定时自动执行。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
Leef7242020/05/14 11:04:391楼编辑删除举报
Leef7242020/05/14 11:04:552楼编辑删除举报
Leef7242020/05/14 11:05:41编辑删除举报
muna2021/04/10 06:28:303楼编辑删除举报