openGemini:顺势而动,蓄势而发
6月11日,2023开放原子全球开源峰会在北京亦创国际会展中心举行,在开源数据库分论坛上,华为云数据库创新实验室主任张文亮受邀做主题技术分享《openGemini:开源分布式时序数据库技术探索与实践》。
顺势而动
张文亮主任讲到,随着5G、物联网、云计算等技术的快速发展,各行业数据量呈现爆发式增长。每天要存储数百GB甚至TB级遥测数据,并能快速响应上层的数据分析业务,这不是随便一种数据库都可以做到的。时序数据库是一种针对时序数据特点和业务特点专门优化的垂直领域数据库,是一种更优的选择。
遥测数据及其业务特点决定了传统的数据库或大数据解决方案无法满足业务对数据的存储分析诉求,并且在基础软件国产化的浪潮推动之下,openGemini顺势开源,专注于海量遥测数据存储与分析,提供高性能、高扩展、低成本的开源解决方案。
蓄势而发
做基础软件,如同铸剑,一旦从剑尖开始打磨,你就会慢慢看出藏在灰暗后的光耀。如今openGemini优异的性能表现,得益于华为云内部业务的长期不断打磨。
数据库技术发展了几十年,分布式架构和整体处理流程基本不会有大的变化,已很难取得更大的突破。openGemini写入和查询的过程看起来比较传统,但这并不意味着性能也到了天花板。
由于各个开源产品的定位和在读写流程中使用的技术和优化措施不同,造就了不同的性能和产品差异化竞争力。openGemini的定位是高性能、分布式时序数据库,专注于海量遥测数据的存储和分析,意味着openGemini需要在架构和技术上实现大并发和高吞吐能力。
在架构设计方面,采用经典的MPP架构,可通过横向扩展来加大并发处理。
在数据查询方面,把OLAP的技术引入进来,比如向量化执行,用于加速查询的数据处理效率。
在写数据方面,采用LSM Tree数据结构,将随机写转为顺序写以提升写入性能。
此外,在结合遥测数据和分析业务特点所做的工程优化方面,openGemini也做得比较有特色,例如通过数据的后聚合,把最常用的一些统计指标(First、Last、Min、Max …)提前计算并存储在数据文件头中,避免分析时大量重复计算的工作;再比如对Index的优化,放弃HashMap,使用MergSet数据结构,索引构建时间更短,查询性能更优,支持时间线更多,占用内存资源更少。
总结
目前openGemini已在华为云SRE、IoT服务产品部、计算产品线、终端等多个产品线的10+业务中使用,其中华为云SRE在全网共部署了超过25套集群,最大集群规模为70节点,支持每秒4000万条数据写入,每秒5万次并发查询,日存储数据20TB。
openGemini虽然开源时间不长,但已受到业界的广泛关注,目前已经拥有了首批5家社区用户正在进行基于openGemini业务改造和适配,10+家正在针对openGemini进行性能测试,陆续将会有社区用户案例发布。
欢迎大家试用和反馈
开源地址:https://github.com/openGemini
镜像地址:https://gitee.com/mirrors/opengemini
官网:http://opengemini.org
- 点赞
- 收藏
- 关注作者
评论(0)