浅谈GaussDB (DWS)技术【玩转PB级数仓GaussDB(DWS)】
1、GaussDB(DWS) 介绍
数据仓库服务GaussDB(DWS) 是一种基于华为云基础架构和平台的在线数据处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS)是基于华为融合数据仓库GaussDB产品的云原生服务 ,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。
2、GaussDB(DWS) 产品架构
GaussDB(DWS) 基于Shared-nothing分布式架构,具备MPP (Massively Parallel Processing)大规模并行处理引擎,由众多拥有独立且互不共享的CPU、内存、存储等系统资源的逻辑节点组成。在这样的系统架构中,业务数据被分散存储在多个节点上,数据分析任务被推送到数据所在位置就近执行,并行地完成大规模的数据处理工作,实现对数据处理的快速响应。
- 应用层
数据加载工具、ETL(Extract-Transform-Load)工具、以及商业智能BI工具、数据挖掘和分析工具,均可以通过标准接口与GaussDB(DWS) 集成。GaussDB(DWS)兼容PostgreSQL生态,且SQL语法进行了兼容MySQL、Oracle和Teradata的处理。应用只需做少量改动即可向GaussDB(DWS)平滑迁移。
- 接口
支持应用程序通过标准JDBC 4.0和ODBC 3.5连接GaussDB(DWS) 。
- GaussDB(DWS)(MPP大规模并行处理集群)
一个GaussDB(DWS) 集群由多个在相同子网中的相同规格的节点组成,共同提供服务。集群的每个DN负责存储数据,其存储介质是磁盘。协调节点(Coordinator)负责接收来自应用的访问请求,并向客户端返回执行结果,此外,协调节点还负责分解任务,并调度任务分片在各DN上并行执行。
- 自动数据备份
支持将集群快照自动备份到EB级对象存储服务OBS(Object Storage Service)中,方便利用业务空闲期对集群做周期备份以保证集群异常后的数据恢复。
快照是GaussDB(DWS) 集群在某一时间点的完整备份,记录了这一时刻指定集群的所有配置数据和业务数据。
- 工具链
提供了数据并行加载工具GDS(General Data Service)、SQL语法迁移工具DSC(Database Schema Convertor)、SQL开发工具Data Studio,并支持通过控制台对集群进行运维监控。
3、数据仓库类型
3.1、产品类型概述
- 云数仓:高性价比,支持冷热数据分析,存储、计算弹性伸缩,无限算力、无限容量,并按需、按量计价。适用于“库、仓、市、湖”一体化的融合分析业务,是OLAP分析场景的首选。
- IoT数仓:在云数仓基础上,提供高效的时序计算和IoT分析能力,支持实时和历史数据关联,内置时序算子,最高40x压缩。适用于物联网IoT等实时分析场景。
- 实时数仓:在大规模数据查询和分析能力基础上,提供高并发、高性能、低时延、低成本的事务处理能力。适用于HTAP混合负载场景,“一库两用,生产即分析”,支持单机部署和集群部署两种部署方式。
3.2、功能特性对比
功能模块 |
功能模块 |
云数仓 |
IoT数仓 |
实时数仓(集群部署) |
实时数仓(单机部署) |
导航菜单 |
总览 |
支持 |
支持 |
支持 |
支持 |
集群管理 |
支持 |
支持 |
支持 |
支持 |
|
容灾管理 |
支持 |
支持 |
支持 |
不支持 |
|
快照管理 |
支持 |
支持 |
支持 |
不支持 |
|
参数模块 |
支持 |
支持 |
支持 |
支持 |
|
事件管理 |
支持 |
支持 |
支持 |
支持 |
|
告警管理 |
支持 |
支持 |
支持 |
支持 |
|
连接管理 |
支持 |
支持 |
支持 |
支持 |
|
总览 |
资源 |
支持 |
支持 |
支持 |
支持 |
告警 |
支持 |
支持 |
支持 |
支持 |
|
近期事件 |
支持 |
支持 |
支持 |
支持 |
|
集群监控指标(DMS) |
支持 |
支持 |
支持 |
不支持 |
4、产品优势
GaussDB(DWS) 数据库内核使用华为自主研发的GaussDB数据库,兼容PostgreSQL 9.2.4的数据库内核引擎,从单机OLTP数据库改造为企业级MPP(大规模并行处理)架构的OLAP分布式数据库,其主要面向海量数据分析场景。
GaussDB(DWS) 与传统数据仓库相比,主要有以下特点与显著优势,可解决多行业超大规模数据处理与通用平台管理问题:
4.1、易使用
- 一站式可视化便捷管理
GaussDB(DWS) 让您能够轻松完成从项目概念到生产部署的整个过程。通过使用GaussDB(DWS) 管理控制台,您不需要安装数据仓库软件,也不需要部署数据仓库服务器,就可以在几分钟之内获得高性能、高可靠的企业级数据仓库集群。
您只需点击几下鼠标,就可以轻松完成应用程序与数据仓库的连接、数据备份、数据恢复、数据仓库资源和性能监控等运维管理工作。
- 与大数据无缝集成
您可以使用标准SQL查询HDFS、对象存储服务(Object Storage Service,OBS)上的数据,数据无需搬迁。
- 提供一键式异构数据库迁移工具
GaussDB(DWS) 提供配套的迁移工具,可支持MySQL、Oracle和Teradata的SQL脚本迁移到GaussDB(DWS) 。
4.2、高性能
- 云化分布式架构
GaussDB(DWS) 采用全并行的MPP架构数据库,业务数据被分散存储在多个节点上,数据分析任务被推送到数据所在位置就近执行,并行地完成大规模的数据处理工作,实现对数据处理的快速响应。
- 查询高性能,万亿数据秒级响应
GaussDB(DWS) 后台还通过算子多线程并行执行、向量化计算引擎实现指令在寄存器并行执行,以及LLVM动态编译减少查询时冗余的条件逻辑判断,助力数据查询性能提升。
GaussDB(DWS)支持行列混合存储,可以同时为用户提供更优的数据压缩比(列存)、更好的索引性能(列存)、更好的点更新和点查询(行存)性能。
- 数据加载快
GaussDB(DWS)提供了GDS极速并行大规模数据加载工具。
4.3、易扩展
- 按需扩展:Shared-Nothing开放架构,可随时根据业务情况增加节点,扩展系统的数据存储能力和查询分析性能。
- 扩容后性能线性提升:容量和性能随集群规模线性提升,线性比8。
- 扩容不中断业务:扩容过程中支持数据增、删、改、查,及DDL操作(Drop/Truncate/Alter table),表级别在线扩容技术,扩容期间业务不中断、无感知。
4.4、高可靠
- ACID
支持分布式事务ACID(Atomicity,Consistency,Isolation,Durability),数据强一致保证。
- 全方位HA设计
GaussDB(DWS) 所有的软件进程均有主备保证,集群的协调节点(CN)、数据节点(DN)等逻辑组件全部有主备保证,能够保证在任意单点物理故障的情况下系统依然能够保证数据可靠、一致,同时还能对外提供服务。
- 安全
GaussDB(DWS) 支持数据透明加密,同时可与数据库安全服务(DBSS)对接,基于网络隔离及安全组规则,保护系统和用户隐私及数据安全。GaussDB(DWS)还支持自动数据全量、增量备份,提升数据可靠性。
4.5、低成本
- 按需付费:GaussDB(DWS) 按实际使用量和使用时长计费。您需要支付的费率很低,只需为实际消耗的资源付费。
- 门槛低:您无需前期投入较多固定成本,可以从低规格的数据仓库实例起步,以后随时根据业务情况弹性伸缩所需资源,按需开支。
5、应用场景
5.1、数据仓库迁移
数据仓库是企业的重要数据分析系统,随着业务量的增长,自建数仓性能逐渐不能满足实际要求,同时扩展性差、成本高,也使扩容极为困难。GaussDB(DWS) 作为云上企业级数据仓库,具备高性能、低成本、易扩展等特性,满足大数据时代企业数据仓库业务诉求。
优势
- 平滑迁移
GaussDB(DWS) 提供配套的迁移工具,可支持TeraData、Oracle、MySQL、SQL Server、PostgreSQL、Greenplum、Impala等常用数据分析系统的平滑迁移。
- 兼容传统数据仓库
GaussDB(DWS) 支持SQL 2003标准,兼容Oracle的部分语法和数据结构,支持存储过程,可与常用BI(business intelligence)工具无缝对接,业务迁移修改量极小。
- 安全可靠
GaussDB(DWS) 支持数据加密,同时可与数据库安全服务对接,保证云上数据安全。同时GaussDB(DWS)支持自动数据全量、增量备份,提升数据可靠性。
5.2、大数据融合分析
随着信息技术的发展和进步,数据资源已经成为企业的核心资源。整合数据资源,构建大数据平台,发现数据价值,成为企业经营的新趋势和迫切诉求。而如何从海量数据中快速挖掘“价值”,成为助力客户实现预测性分析的关键要素。
优势
- 统一分析入口
以GaussDB(DWS) 的SQL作为上层应用的统一入口,应用开发人员使用熟悉的SQL语言即可访问所有数据。
- 实时交互分析
针对即时的分析需求,分析人员可实时从大数据平台上获取信息。
- 弹性伸缩
增加节点,即可扩展系统的数据存储能力和查询分析的性能,可支持PB级数据的存储和计算。
5.3、增强型ETL和实时BI分析
数据仓库在整个BI系统中起到了支柱的角色,更是海量数据收集、存储、分析的核心。为IoT(Internet of things)、金融、教育、移动互联网、O2O(Online to Offline)等行业提供强大的商业决策分析支持。
优势
- 数据迁移
多数据源,高效批量、实时数据导入。
- 高性能
PB级数据低成本的存储与万亿级数据关联分析秒级响应。
- 实时
业务数据流实时整合,及时对经营决策进行优化与调整。
5.4、实时数据分析
移动互联网、IoT场景下会产生大量实时数据,为了快速获取数据价值,需要对数据进行实时分析,GaussDB(DWS) 的快速入库和查询能力可支持实时数据分析。
优势
- 流式数据实时入库
IoT、互联网等数据经过流计算及AI服务处理后,可实时写入GaussDB(DWS) 。
- 实时监控与预测
围绕数据进行分析和预测,对设备进行监控,对行为进行预测,实现控制和优化。
- AI融合分析
AI服务对图像、文本等数据的分析结果可在GaussDB(DWS) 中与其他业务数据进行关联分析,实现融合数据分析。
- 电商场景
华为云GaussDB(DWS) 是支撑华为商城Vmall进行数据分析的数据仓库引擎。电商的数据分析,主要用于支撑营销推荐、运营分析、全文检索、客户分析等业务。
优势如下:
- 分析维度广:可从商品、用户、运营、地区多个维度进行复杂的分析。
- 随业务增长扩容:可根据业务增长,随时进行集群规模扩展。
- 可靠性高:GaussDB(DWS) 的高可靠性支撑电商系统的长时稳定运行。
- IoT场景
物联网(IoT)所产生的数据,通过构建GaussDB(DWS) ,围绕海量的数据进行实时分析并进行反馈优化。应用在工业IoT、O2O业务系统、车联网等解决方案。
优势如下:
- 设备监控与预测:围绕数据,进行分析和预测,对设备进行监视、控制和优化补给,以及自我诊断和修复。
- 信息推荐:结合在围绕人周围的联网设备汇集的数据,为用户进行定向的信息推荐。
6、小结
大数据时代,数据价值重要性与日俱增,如何释放数据价值,成为企业数字化成功转型的关键。华为GaussDB(DWS)能帮助大家提升业务效率轻松应对未来业务数据增长。让我们一起期待更GaussDB(DWS)更丰富的应用场景。
【一起来玩转PB级数仓GaussDB(DWS),分享你的技术经验与体验心得,赢开发者大礼包!】第19期有奖征文火热进行中!
- 点赞
- 收藏
- 关注作者
评论(0)