Clickhouse适配GaussDB(For MySQL)专项开发任务心得
1 背景介绍
开源for Huawei(参考https://developer.huaweicloud.com/programs/opensource/contributing/) 通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。开始之前,开发者可以下载 开源for Huawei Wiki(参考下面链接https://gitcode.com/HuaweiCloudDeveloper/OpenSourceForHuaweiWiki/overview) 了解详细的开发步骤,技术准备,以及开发过程需要的各种资源。
2 需求分析
2.1 开源软件基本情况
ClickHouse 是一个开源的、用于联机分析处理(OLAP)的列式数据库管理系统(DBMS)。它专为快速查询大量结构化数据而设计,能够在短时间内处理复杂的分析查询,广泛应用于数据分析、数据仓库、商业智能等领域。例如,在互联网公司中,可以用于分析用户行为数据,如网站访问记录、用户购买行为等海量数据。它采用列式存储格式。与传统的行式存储不同,列式存储将数据按列进行存储。ClickHouse 的查询速度非常快。它利用了向量化执行引擎,能够同时处理多个数据元素,减少了 CPU 的指令周期。能够处理大量的数据流入和流出。它可以高效地处理每秒数百万甚至更多的查询请求。 |
2.2 任务目的和范围
本任务的主要目的是让ClickHouse支持华为云GaussDB(For MySQL)服务,拓展GaussDB(For MySQL)影响力,方便ClickHouse的用户使用华为云服务时能够顺利对接ClickHouse服务。同时,该任务也可以为一些项目迁移时候的改造适配打下基础,方便用户在云上做方案选型的时候,可以选择GaussDB(For MySQL)服务,缩短开发周期,保证项目迁移进度,降低开发上云成本 。
3 适配验证
3.1 集群搭建
搭建Clickhouse集群。
搭建Flink集群。
3.2 适配代码开发
开发Flink代码实现实时捕获GaussDB(For MySQL)的变更数据Sink到Clickhouse。
开发Flink代码把Clickhouse数据Sink到GaussDB(For MySQL)。
3.3 验证
验证思路:对源表数据进行增删改,如果flink ui和目标表能实时同步变更即验证成功。
flink ui和目标表均同步变更
4 心得
4.1 对于删除数据,使用侧输出流进行分流,额外构建clickhouse sink进行处理。
4.2 下游clickhouse表的重复数据,可以使用ReplacingMergeTree引擎,并进行表的合并。
- 点赞
- 收藏
- 关注作者
评论(0)