GaussDB(DWS)湖仓一体实践【绽放吧!GaussDB(DWS)云原生数仓】

举报
前进的蜗牛 发表于 2023/11/29 15:19:00 2023/11/29
【摘要】 一、背景伴随5G、大数据、AI、物联网的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,企业对数据处理分析的实时性和融合性提出了更高的要求,“仓湖一体(Lake House)”的概念应运而生。无论在技术圈还是资本圈,仓湖一体都受到了前所未有的关注度。而今企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点...

一、背景

伴随5G、大数据、AI、物联网的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,企业对数据处理分析的实时性和融合性提出了更高的要求,“仓湖一体(Lake House)”的概念应运而生。无论在技术圈还是资本圈,仓湖一体都受到了前所未有的关注度。今企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:

  • 数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。
  • 数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。
一直以来,我们都在使用两种数据存储方式来架构数据:
1、数据仓库:主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。
2、数据湖:存储任何类型的数据,包括像图片、文档这样的非结构化数据。数据湖通常更大,其存储成本也更为廉价。存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上。相反的是,数据的拥有者通常会在读取数据的时候解析schema,当处理相应的数据时,将转换施加其上。
特性 数据湖 数据仓库
数据源 来自IOT、设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系 来自交易系统,运营数据库和业务线应用程序的关系
Schema 在分析时写入(读取型schema) 在DW之前写入(写入型schema)
性价比 低成本存储获得较快的查询结果 较高成本的存储获得最快的查询结果
数据质量 任何可以或无法监管的数据(原始数据) 可以作为重要事实依据的高度监管数据
用户 数据科学家、业务分析师、数据开发人员 业务分析师
分析 机器学习、预测分析、数据发现和描述 批处理报告、可视化

仓湖一体概念:

仓湖一体是一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。其最重要的一点,是实现"湖里"和"仓里"的数据、元数据能够无缝打通,并且“自由”流动。仓湖一体使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
有人把“仓湖一体”做了形象的比喻,就好像湖边搭建了很多小房子,有的可以负责数据分析,有的来运转机器学习,有的来检索音视频等等,而这些数据源流,都可以从数据湖里轻松取得
网上有很多主流的搭建架构,但是就稳定性、易用性、成本来说还是使用云服务比较好,现在我调研了华为云的GaussDB(DWS)湖仓一体解决方案。

二、华为云湖仓一体资源列表

1、云数据仓库GaussDB(DWS)

新一代、全场景数据仓库,一站式分析,性能、容量无限扩展,守护高价值数据、创享高价值分析,企业数字化转型坚实伙伴

1、2048超大规模节点

2、4+1一站式分析(库/仓/市/湖+IOT一体化)

3、多生态兼容(兼容TD/Oracle/PG/MySQL多生态)

2、MapReduce服务MRS

提供Hudi、Doris、Spark、HBase、Flink、Clickhouse、Hadoop等开源大数据组件,支持湖仓一体、灵活的弹性控制能力

3、数据管理服务DAS

数据管理服务(Data Admin Service,简称DAS),用来登录和操作华为云上数据库的Web服务,提供数据库开发、运维、智能诊断一站式云上数据库管理平台,方便用户使用和运维华为云数据库。

4、对象存储服务OBS

提供安全稳定、性能领先、无限弹性扩展的存储能力,降低使用成本,驱动千行百业数据价值变现

5、弹性云服务器ECS、虚拟私有云VPC、弹性公网EIP

云服务器、私有网络、弹性IP主要是为了配合湖仓一体进行搭建必须的存储及联网资源

三、湖仓一体实验

体验GaussDB(DWS)云原生数仓-湖仓一体

本实验指导用户创建GaussDB(DWS)新一代Serverless云原生数仓,并体验Serverless架构下,湖仓一体、存算分离等极致查询的高级特性。

https://lab.huaweicloud.com/experiment-detail_2567?ticket=ST-865751-hSzIcn4vr3PpC636OI2SH4Fn-sso

此处是具体的实验地址,大家有兴趣的可以按照步骤来进行实验一下,时间为2个小时。


四、实际使用体验

1、从易用性方面

根据教程是可以快速上手的,当然建议还是要有一定的数据处理经验的能更快速上手。

因为涉及到的产品比较多,具体购买使用时候选择的具体性能还需要再深入测验一下。

每种产品之间的协作绑定有时候会设置错误,我就是实验了2次才成功的,建议后期在湖仓一体的方案中能实现集中一体化部署方式。

可视化界面分析及数据查看还是做的很完善,可以进行直观的显示我想要的数据。

2、从性能方面

按照教程,计算过程和实时显示结果效率还是很满意的,后续我会多拿一些数据来进行测试。

在使用GaussDB(DWS)的过程中,我对其性能感到非常满意。无论是在数据导入、查询还是分析处理时,GaussDB(DWS)都表现出了出色的性能和稳定性。它能够快速响应查询请求,并能够处理大规模的数据并发。与传统的数据库相比,GaussDB(DWS)在处理大数据量和高并发方面有明显的优势,这极大地提高了我们的工作效率。

我个人体验下来,觉得华为云的湖仓一体提供了一种高性能、高可靠、高灵活的数据分析服务,有非常大的前景和创新,我再也不用自己去用服务搭建了,只需要关注客户的业务场景去完成具体的上层建筑就好了。再也不用担心数据仓库的安全性、集群的稳定性等问题。希望华为云技术越来越智能全面!


我正在参加【有奖征文 第27期】绽放吧!GaussDB(DWS)云原生数仓!

【有奖征文 第27期】绽放吧!GaussDB(DWS)云原生数仓,发表文章赢取GaussDB(DWS)开发者认证考试劵好礼

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。