数仓专家面对面 | 为什么我选择GaussDB(DWS)
数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。
你知道数仓是如何应运而生的吗?
你了解数仓未来的发展趋势吗?
想知道国内数仓专家的看法吗?
今天我们邀请到了华为云数据仓库首席架构师,中国计算机学会数据库专委委员——曾凯,来和我们面对面聊一聊从业者眼中的数据仓库。
曾凯,本科毕业于浙江大学,博士毕业于加州大学洛杉矶分校,曾在加州大学伯克利分校的AMPLab 做博士后研究。他发表了多篇数据库领域的CCF A类论文,曾获得SIGMOD 2012最佳论文奖、SIGMOD 2014最佳演示奖以及SIGMOD 2010最佳演示奖提名,并常年担任SIGMOD、VLDB、ICDE等数据库领域会议的PC Member等。
问:您觉得数仓是如何应运而生的?
数据库的诞生,实际上是伴随着计算机的诞生,人类数据信息管理和处理方式的一种升级。但是数据库诞生之初,还是没有数仓的,数仓其实是在80年代以后,人们对于数据管理和处理的诉求进一步提升,数据量增加,数据分析的复杂度和维度变得更大了以后,才开始产生面向分析的负载,然后才有数据仓库的诞生。在我看来,数据仓库的诞生,它就代表人们不再满足于对数据做简单的存储和操作管理,而是尝试从数据中去挖掘价值,通过分析数据来支撑商业决策。当然数仓也在不断发展,从描述型的数仓,演进为探索型的数仓,再到运营型的数仓,发展到今天我认为已经进入到了智慧型的数仓时代。
问:可以请您谈一下对国内数仓产业的见解吗?比如国内需要怎么样的数仓产品,有哪些场景迫切需要数仓的发展与演进,这些场景对数仓提出了哪些能力要求?
我觉得数仓产品的发展和演进方向可以用一个词来总结,就是“融合”,这些包括传统数仓技术与云计算的融合,流与批的融合,湖和仓的融合,数据和AI的融合,TP与AP的融合等等:
一是传统数仓技术与云计算的融合,也就是云原生Serverless化,目前数据仓库的架构正向云原生演进,其典型技术特征是存算分离。这种新架构可以给用户带来极致的弹性,同时降低成本和提高资源利用率。二是流与批的融合,我们也称实时分析,像实时风控、实时营销、实时授信等场景越来越需要对当前最新产生数据进行即时的分析。三是湖和仓的融合,也就是湖仓一体,将数据湖和数据仓库有机结合,充分融合数据仓库的高性能与数据湖的低成本,实现冷热数据分级、价值密度分级,同时承载结构化、半结构化及非结构化的海量数据的多样化处理,实现“1+1>2”的效果。四是数智融合,也就是融合数据平台和AI平台,实现能力互补,将数据仓库数据管理能力与ML流程生命周期管理结合。五是TP与AP的融合,运用HTAP技术,构建一套系统,既支持TP又支持AP能力,同时降低成本、减少系统运维和ETL开销。
问:GaussDB(DWS)专注于哪些应用场景,又是如何实现这些场景需求的?
我们GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库。以企业金融级内核、统一架构,提供用户体验一致的公有云、混合云服务部署形态。
在企业数字化转型中GaussDB(DWS)提供全场景一站式数据分析服务:高性能、高扩展能力,支撑100PB到EB级别的企业核心数据仓库系统;多层级全并行数据处理,提供毫秒级实时分析、秒级交互式分析、分钟级批量分析;SQL on Anywhere,简化数据探索的开发难度;存算分离、弹性伸缩、冷热数据智能分布,满足用户算力和容量的灵活变化需求。
目前GaussDB(DWS)已经融入企业数仓、数据集市、数据探索、IoT分析和混合负载等场景,并广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统。
问:对于您个人而言,为什么选择了GaussDB(DWS),GaussDB(DWS)产品什么方面吸引了您?
首先从个人背景来讲,我其实一直都是深耕在数据库和分布式系统领域,所以我个人对于数据处理技术有着浓厚的兴趣。
其次,GaussDB(DWS)的发展,从华为的2012实验室孵化之初,到如今已经有十多个年头了。这期间GaussDB(DWS)的团队不断在技术上追求卓越,精益求精,到目前为止服务超过1700家客户,已经在工业界已经成长为业界第一梯队的数据仓库产品。不仅如此,GaussDB(DWS)在学术圈也有一定的影响力,经常在国际数据库研究领域发表论文以及参加研究交流活动。所以我觉得GaussDB(DWS)不管是作为一个工业产品,还是作为一个数据库技术研发平台,都是非常好的载体,这也是GaussDB(DWS)吸引我,让我选择在GaussDB(DWS)工作的原因。
问:您觉得GaussDB(DWS)未来的能力增长方向在哪些方面,GaussDB(DWS)在未来能带来哪些更多的可能性?
就像我之前提到的,GaussDB(DWS)未来会在以存算分离为架构特点的云原生Serverless化、实时分析、HTAP混合负载,还有跟周边生态系统的融合,包括湖仓一体、数智融合、智能化等等方向持续投入研发理论,不断推动这些方面的技术能力发展。另外我想着重强调一点,就是我们今年3月底会发布GaussDB(DWS) 3.0,在保持GaussDB(DWS)传统的优秀的性能和可靠性,以及优异的实时分析、HTAP混合负载的能力之外,就在这些方向上引入了更多业界领先的能力:
比如说在云原生Serverless化方面,GaussDB(DWS) 3.0引入了极致的弹性能力,可以为用户提供分钟级的逻辑集群内部弹性,也可以支持用户分钟级地去按需创建和销毁逻辑集群。并且用户可以按照业务诉求,去灵活使用多个逻辑集群支持不同的业务负载,保证各种业务负载之间严格的资源隔离,同时还可以根据业务负载的动态需求变化来弹性伸缩;并随着业务负载的增长,线性地提升它的承载能力。
同时GaussDB(DWS) 3.0也大大增强了湖仓一体和数智融合方面的能力,支持与华为云大数据的产品站无缝融合,这样用户就可以在湖和仓的数据上实现无缝的混合复杂查询,使得用户对湖上数据的分析仍然能够体验数据仓库的极致查询性能和非常强大的负载管理能力。同时在数智融合方面,我们提供了非常方便的手段,来打通用户的数据生产线和AI生产线,使得用户可以利用数仓强大的计算能力,为AI生产线提供高质量的数据和数据加工的能力,同时也可以把AI训练和推理的能力无缝地集成到数仓数据分析的过程中来,提供更多的可能性。
了解更多产品内容
快来一块钱试用云数据仓库 GaussDB(DWS)
点击阅读原文,速速加入我们吧:)
扫码添加小助手微信,一起在线互动~
- 点赞
- 收藏
- 关注作者
评论(0)