GaussDB(DWS)功能及配套工具丨【这次高斯不是数学家】
一、GaussDB(DWS)功能
1.1 集群管理
在创建集群之前,首先要创建虚拟私有云:
之后可以按照自己的需求创建数据仓库集群。(集群创建时间可能比较缓慢,耐心等待~)
- 查看集群信息
点击已经创建好的集群,可以查看集群的基本信息。
- 工作负载管理
在集群信息页面,点击工作负载,可以查看工作负载信息。
- 快照管理
在集群信息页面,点击快照,可以查看快照信息。
- 参数修改
在集群信息页面,点击参数修改,可以查看参数修改界面。
- 安全设置
在集群信息页面,点击安全设置,可以查看安全设置界面。
- MRS数据源
在集群信息页面,点击MES数据源,可以通过创建MRS数据源连接,连接HDFS。
- 节点管理
点击节点管理,可以查看当前数据库的节点操作。
- 日志服务
点击日志服务,可以查看集群的日志。
1.2 企业级数据仓库和标准SQL的支持
PB(petabyte)级高性能数据库:
- MPP大规模并行处理框架,支持行列混存、向量化执行,实现万亿数据关联分析秒级响应。
- 内存计算,基于Bloom Filter的Hash Join优化,性能提升2~10倍。
- 基于电信技术优化的大规模集群通信,提升计算节点间的传输效率。
- 基于代价的智能优化器,根据集群规模、数据量、生成最优计划,提高执行效率。
SQL兼容:
- 支持sQL 92、SQL 2003标准,支持存储过程,支持GBK和UTF-8字符集,支持sQL标准函数与OLAP分析函数。
- 兼容PostgreSQL生态,与主流第三方数据库ETL,Bl(business intelligence)工具厂商对接认证。
1.3 多样化的数据导入方式
GaussDB(DWS)支持多数据源高效入库,典型的入库方式如下:
- 从OBS(对象存储服务)并行导入数据;
- 口使用GDS(General Data Service)从远端服务器导入数据;
- 通过INSERT语句直接写入数据;
- 口使用COPY FROM STDIN导入数据;
- 口使用gsql元命令导入数据;
- 从MRS ( MapReduce服务)导入数据到集群;
- 口从DIS(数据接入服务)导入流式数据到GaussDB(DWS);
- 使用CDM(云数据迁移服务)迁移数据到GaussDB(DWS);
- 使用DSC工具迁移sQL脚本。
1.4 应用程序接口
-
支持调用JDBC(Java Database Connectivity)、ODBC(Open Database Connectivity)。Python第三方库psycopg2等标准接口开发应用程序访问GaussDB(DWS)集群中的数据库。
-
Java:
-
JDK 1.6或以上版本。
-
开源的JDBC驱动程序:PostgresQL JDBC驱动程序9.3-1103或更高版本。
-
-
ODBC:
- 开源的ODBC驱动程序:PostgresQL ODBC 09.01.0200或更高版本。
1.5 高可靠性
- 通过实例冗余、数据冗余,实现整个系统无单点故障。
- 数据多副本,且所有数据可手工备份至OBS。
- 自动隔离有故障的节点,利用副本重新恢复数据,并在必要时替换节点。
- 自动快照结合OBs存储,实现跨Az容灾。
1.6 安全管理
- 基于网络隔离、安全组规则以及一系列安全加固项,实现租户隔离和访问权限控制,保护系统和用户的隐私及数据安全。
- 支持SSL安全网络连接、用户权限管理、密码管理等功能,保证数据库在网络层、管理层、应用层和系统层的安全性。
1.7 监控与审计
-
监控集群:
GaussDB(DWS)与云监控服务集成,使您能够对集群中的计算节点和数据库进行实时监控。 -
事件通知:
GaussDB(DWS)与消息通知服务对接,使您能够订阅事件并查看触发的各类事件。 -
审计日志:
- GaussDB(DWS)与云审计服务集成,使您能够对所有的管理控制台操作及API调用进行审计。
- GaussDB(DWS)数据库还会记录所有的sQL操作,包括连接尝试、查询和数据库的变动。
二、GaussDB(DWS)配套工具
支持多种数据库工具
GaussDB(DWS)提供了以下几款自研工具,用户可以在GaussDB(DWS)管理控制台下载相关的工具包:
- gsql工具:
一款运行在Linux操作系统的命令行sQL客户端工具,用于连接GaussDB(DWS)集群中的数据库,并对数据库进行操作和维护。 - Data Studio工具:
一款运行在Windows操作系统上的图形界面sQL客户端工具,用于连接GaussDB(DWS)集群中的数据库、管理数据库和数据库对象,编辑、运行、调试sQL脚本,查看执行计划等。 - GDS工具:
GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导入导出。
2.1 gsql概述
基本功能
- 连接数据库:通过gsql客户端远程连接GaussDB(DWS)数据库。
- 执行SQL语句:支持交互式地键入并执行sQL语句,也可以执行一个文件中指定的sQL语句。
- 口执行元命令:元命令可以帮助管理员查看数据库对象的信息、查询缓存区信息、格式化SQL输出结果,以及连接到新的数据库等。元命令的详细说明请参见元命令参考。
2.2 Data Studio概述
- Data Studio通过提供图形化界面来展示数据库的主要功能,简化了数据库开发和应用构建任务。
- 数据库开发人员可以使用Data Studio所提供的特性,创建和管理数据库对象(数据库对象包含数据库模式、函数、存储过程、表、序列、列、索引、约束条件、视图、表空间等),执行sQL语句/SQL脚本,编辑和执行PL/SQL语句,以及导入和导出表数据。
- 数据库开发人员可在Data Studio中通过单步进入、单步退出、单步跳过、继续、终止调试等操作调试并修复PL/SQL代码中的缺陷。
- 数据库及Data Studio的操作环境如图所示。
2.3 GDS概述
-
GaussDB(DWS)提供了数据服务工具GDS来帮助分发待导入的用户数据及实现数据的高速导入。GDS需部署到数据服务器上。
-
数据量大,数据存储在多个服务器上时,在每个数据服务器上安装配置、启动GDS后,各服务器上的数据可以并行入库。
-
GDS工具适用场景:
- 大数据量表以文本数据作为来源导入;
- 口大数据量表的导出。
-
GDS(GaussDB DATA SERVER)数据服务器位于数据库系统外部,通过网络与系统相连。
-
数据服务器上部署GDS(GaussDB DATA SERVER)管理源数据,提供数据服务功能,分发数据文件给DataNode。各DataNode并行收到数据分片,进行数据的入库。
-
GDS支持导入和导出的文件格式有csv,text, binary,fixed(每一行的数据等长)。
-
传统数据库单节点导入性能低,GaussDB(DWS)充分利用多节点并行导入,提高整体导入性能:
- CN节点只负责任务的规划及下发,把数据导入的工作交给了DN节点,释放了CN节点的资源,使其有能力处理外部请求。
- GDs进程负责数据文件的切分,然后分发给各个DN实例。
- 各DN实例接收到数据分片后解析数据,而后根据表的分布列计算hash值,确定该条数据属于哪个DN;如果属于自身则缓冲到本地,如果属于别的DN则通过网络发送给相应的DN。
参考文献
【这次高斯不是数学家】有奖征文火热进行中:https://bbs.huaweicloud.com/blogs/345260
- 点赞
- 收藏
- 关注作者
评论(0)