Clickhouse适配GaussDB(For MySQL)专项开发任务心得

举报
guochengyi 发表于 2024/12/09 18:20:11 2024/12/09
【摘要】 基于flink 实现 Clickhouse适配GaussDB(For MySQL)

1 背景介绍

开源for Huawei(参考https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。开始之前,开发者可以下载 开源for Huawei Wiki(参考下面链接https://gitcode.com/HuaweiCloudDeveloper/OpenSourceForHuaweiWiki/overview) 了解详细的开发步骤,技术准备,以及开发过程需要的各种资源。  

2 需求分析

2.1 开源软件基本情况

ClickHouse 是一个开源的、用于联机分析处理(OLAP)的列式数据库管理系统(DBMS)。它专为快速查询大量结构化数据而设计,能够在短时间内处理复杂的分析查询,广泛应用于数据分析、数据仓库、商业智能等领域。例如,在互联网公司中,可以用于分析用户行为数据,如网站访问记录、用户购买行为等海量数据。它采用列式存储格式。与传统的行式存储不同,列式存储将数据按列进行存储。ClickHouse 的查询速度非常快。它利用了向量化执行引擎,能够同时处理多个数据元素,减少了 CPU 的指令周期。能够处理大量的数据流入和流出。它可以高效地处理每秒数百万甚至更多的查询请求。

2.2 任务目的和范围

本任务的主要目的是让ClickHouse支持华为云GaussDB(For MySQL)服务,拓展GaussDB(For MySQL)影响力,方便ClickHouse的用户使用华为云服务时能够顺利对接ClickHouse服务。同时,该任务可以为一些项目迁移时候的改造适配打下基础,方便用户在云上做方案选型的时候,可以选择GaussDB(For MySQL)服务,缩短开发周期,保证项目迁移进度,降低开发上云成本 


3 适配验证

3.1 集群搭建

搭建Clickhouse集群。

搭建Flink集群。

3.2 适配代码开发

开发Flink代码实现实时捕获GaussDB(For MySQL)的变更数据SinkClickhouse

开发Flink代码把Clickhouse数据SinkGaussDB(For MySQL)

3.3 验证

验证思路:对源表数据进行增删改,如果flink ui和目标表能实时同步变更即验证成功。

flink ui和目标表均同步变更

4 心得

    4.1 对于删除数据,使用侧输出流进行分流,额外构建clickhouse sink进行处理。

   4.2 下游clickhouse表的重复数据,可以使用ReplacingMergeTree引擎,并进行表的合并。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。