【愚公系列】《数据可视化分析与实践》022-数据集(定时同步)

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
🚀前言
前面对数据分析过程中数据来源的问题进行了详尽的探讨。本文将深入分析数据集的功能,介绍单表数据集、多表关联数据集和自定义SQL数据集的构建方法,并阐述数据集管理和定时同步数据的策略,为后续的数据分析或报表制作进行必要的数据准备。读者能够通过关联和处理表格中的数据,自由地组合并形成个性化的数据集合,以满足后续业务分析和图表制作的需求。
在DataEase中,数据集是核心的功能模块,为接下来的数据分析或报表制作进行必要的数据准备。DataEase中有3种数据集:单表数据集、自定义SQL数据集和多表关联数据集。这3种数据集各自适用于不同的使用场景。
在讲解3种数据集之前,先对DataEase中多元化的数据源进行概括性的分类,主要包括:数据库(涵盖OLTP、OLAP型数据库及数据湖)、API数据和本地文件。数据库中的数据是以表的形式存储的;API数据源通过接口获取数据后,数据在DataEase中也会被转化为数据表的形式并存储;同理,本地文件(如Excel文件)的每一个sheet页也会被转换成一张数据表。尽管这些表的命名规则可能略有不同,例如,API数据表以“api_”为前缀,Excel文件则以“excel”为前缀,数据库数据表则维持表原来的名字,但DataEase中最终的存储单位都是数据表。
因此,无论数据源的类型如何,一旦与DataEase连接,其数据最终都将以表的形式进行存储和展示。
🚀一、定时同步
定时同步是DataEase企业版提供的一项高级数据集成与治理功能。它解决了企业数据分析中的一个核心痛点:如何将位于在线事务处理(OLTP)数据库(如MySQL、Oracle)中频繁更新的业务数据,高效、稳定、自动化地同步到专为分析而设计的高性能实时分析型数据库(如Apache Doris)中。通过此功能,用户可以实现数据集的定时或实时同步,从而确保分析平台所使用的数据既能与业务系统保持同步(实时性),又不会对核心生产数据库的运营性能造成影响(解耦与性能)。
重要版本说明:定时同步功能是 DataEase企业版专有功能。如果您当前运行的是开源社区版,则将无法在界面中找到或启用此功能模块。
要使用此功能,请从主界面单击进入 【组织管理中心】,在左侧菜单中找到 【同步管理】 模块。如图7-29所示,同步管理主要包含三大子模块:
- 概览:提供全局视图,包括已配置的数据源数量、同步任务数量、总执行次数、过去7天的任务执行趋势图以及当前所有任务的同步状态分布(成功、失败、执行中)。
- 数据连接管理:用于配置数据同步的“源头”和“目的地”。
- 任务管理:用于创建和管理具体的同步任务,定义同步的频率、规则和内容。
图7-29 同步管理模块概览页面
🔎1.数据连接管理
数据同步的第一步是明确数据的“从哪里来”和“到哪里去”。数据连接管理页面正是用于此目的,它分为源数据源管理和目标数据源管理两部分。
当前支持范围:
- 源数据库(支持同步的来源):主要为常见的OLTP数据库,如 Db2, MySQL, Oracle, SQL Server。
- 目标数据库(支持同步的目标):目前支持 Apache Doris (v1.2及以上版本)。Apache Doris是一款现代化的MPP分析型数据库,以极速易用著称,非常适合作为数据分析和BI的查询引擎。
本节将以从 MySQL 同步数据到 Apache Doris 为例,演示如何配置数据连接。
🦋配置源数据源(MySQL)
-
在同步管理模块中,点击进入 【数据连接管理】,默认显示“源数据源”标签页。
-
点击 【添加源数据源】 按钮(见图7-30)。
图7-30 源数据源管理页面与“添加”按钮

-
在弹出的“新建数据源”页面中,首先选择数据源类型。在支持的源数据库列表中,点击 【MySQL】 图标(见图7-31)。
图7-31 选择源数据源类型(MySQL)

-
点击 【下一步】,进入详细的配置信息页面(见图7-32)。您需要填写MySQL数据库的完整连接信息:
- 基础信息:包括数据源名称(用于标识)、描述、数据库服务器的主机名/IP地址、端口(默认3306)、具体的数据库名称、拥有读取权限的用户名和密码。还可根据需要填写额外的JDBC连接参数字符串。
- 高级设置(通常保持默认即可):可以配置连接池参数(初始、最小、最大连接数)以优化连接管理,并设置查询超时时间。
-
填写完毕后,务必先点击 【校验】 按钮。系统将尝试使用您提供的配置连接数据库,校验成功会给出提示(见图7-32)。这是避免因配置错误导致后续任务失败的关键步骤。
-
校验成功后,点击 【保存】。保存后,您可以在源数据源列表中看到这条新记录(见图7-33)。
图7-32 配置MySQL源数据源详细信息并校验

图7-33 成功添加的MySQL源数据源记录

🦋配置目标数据源(Apache Doris)
-
在数据连接管理页面,切换到 【目标数据源】 标签页。
-
点击 【添加目标数据源】 按钮(见图7-34)。
图7-34 目标数据源管理页面与“添加”按钮

-
在类型选择页面,点击 【Apache Doris】(见图7-35)。
图7-35 选择目标数据源类型(Apache Doris)

-
点击 【下一步】,进入Apache Doris的配置页面(见图7-36)。其配置项与MySQL类似,需要填写Doris集群的FE节点地址、HTTP端口(默认8030)、数据库名及访问账号密码。
-
同样,填写后先点击 【校验】 按钮,确保能成功连接到Doris数据库,然后点击 【保存】。
-
保存后,在目标数据源列表中即可查看(见图7-37)。
图7-36 配置Apache Doris目标数据源详细信息

图7-37 成功添加的Apache Doris目标数据源记录

数据同步后的应用:当数据成功从MySQL同步到Apache Doris后,您就可以在DataEase的 【数据准备】 → 【数据源】 模块中,新建一个指向Apache Doris的数据源连接。随后,便可以像使用MySQL数据源一样,基于Doris中的数据创建各种数据集(参考6.2.1, 6.3.1, 6.4节)。之后创建的所有图表和仪表板,其查询都将由高性能的Doris引擎承载,从而获得极速的分析体验,并且数据会根据您设置的同步频率自动更新。
🔎2.任务管理
配置好数据连接后,核心工作就是创建同步任务来定义同步的具体行为。任务管理页面包含任务列表(管理任务)和任务日志(查看执行历史)两部分。
🦋创建定时同步任务
-
进入同步管理下的 【任务管理】 → 【任务列表】 页面。
-
点击 【添加任务】 按钮(见图7-38)。
图7-38 任务列表页面与“添加任务”按钮

-
进入任务创建向导,首先填写 基础信息(见图7-39):
- 名称/描述:清晰的任务标识。
- 任务超时时间 & 失败重试次数:用于控制任务执行的健壮性。
- 同步频率:这是定时同步的核心。您可以选择:
- 立即同步:保存任务后立即执行一次。
- 定时执行:通过Cron表达式(见图7-40)或固定频率(如每小时、每天)来设置周期性的自动同步。
图7-39 设置任务基础信息与同步频率

图7-40 同步频率表达式与固定频率配置选项

-
点击 【下一步】,进入 源数据库 配置页面(见图7-41):
- 选择之前配置好的源数据库类型和具体的数据源。
- 查询方式:通常选择“库表”,表示同步整张表。
- 库表:选择需要同步的具体数据表。
图7-41 配置源数据库(选择MySQL数据源及具体表)

-
点击 【下一步】,进入 目标数据库 配置页面(见图7-42):
- 选择目标数据库类型(Apache Doris)和具体的数据源。
- 表名:指定数据同步到Doris后创建的表名。
- 字段映射:点击 【添加所有字段】,系统会自动将源表的所有字段列出来。您可以在此进行精细控制:
- (1) 字段删减:取消勾选不需要同步的字段。
- (2) 增量/全量同步:
- 全量同步:每次任务执行时,同步源表的全部数据(会覆盖目标表)。
- 增量同步(需勾选):仅同步上次同步之后新增或变化的数据,必须指定一个增量字段(如自增ID或更新时间戳)。这是生产环境最常用的模式,可大幅提升同步效率。
- (3) 启用分区:对于大数据量表,可以在Doris中启用分区功能来优化查询,但启用时字段不能有空值。
图7-42 配置目标数据库及同步字段、增量选项

-
配置完成后,点击 【确认】。任务创建成功并会出现在任务列表中。如果设置了“立即同步”,任务状态会显示为“执行中”(见图7-43),执行结束后变为“成功”或“失败”(见图7-44)。
图7-43 新任务创建成功并开始执行

图7-44 任务执行结束后的状态(成功)

🦋监控任务执行
-
切换到 【任务日志】 标签页(见图7-45),这里记录了所有同步任务的历史执行详情,包括开始时间、结束时间、状态、数据行数以及详细的日志信息。这是排查同步失败问题的主要入口。
图7-45 任务日志页面查看执行记录

总结与最佳实践
定时同步功能将DataEase从单一的数据可视化工具,升级为具备企业级数据管道(ETL)能力的分析平台。其核心价值在于:
- 保障生产系统性能:将分析查询负载从OLTP数据库剥离,转移至专用的OLAP数据库。
- 确保数据时效性:通过灵活的定时或增量同步策略,使分析数据与业务系统保持近乎实时。
- 简化数据架构:在DataEase一个平台内完成数据同步、加工和可视化,降低了多系统维护的复杂度。
在实际使用中,建议对于变化频繁的业务表采用增量同步策略,并设置合理的同步频率(如每5分钟、每小时)。定期检查任务日志,确保同步流程稳定运行。通过此功能构建起高效、可靠的数据供给链路,是支撑企业大规模、实时数据分析应用的坚实基础。
- 点赞
- 收藏
- 关注作者

















评论(0)