重塑数据开发流程!DWS Studio SQL编辑器实践【华为云DWS Studio SQL编辑器体验】
引言
在当今数据洪流的时代,高效的数据处理与分析能力已成为驱动业务增长的关键。面对海量数据的挑战,华为云GaussDB(DWS)数据仓库凭借其13年的深厚技术积累,为市场带来了一场数据管理的革命。作为这一领域的最新力作,DWS Studio SQL编辑器横空出世,旨在简化数据开发流程,赋能数据工程师与分析师以更直观、更高效的方式解锁数据价值。本文将引领您深入探索DWS Studio SQL编辑器的奇妙世界,从最初的入门,到实战操作,一步步揭示它是如何重新定义数据开发的标准流程,让数据处理变得既快捷又富有洞察力。无论您是寻求提升数据处理效率的企业决策者,还是渴望在数据海洋中畅游的技术探索者,这场由DWS Studio引领的数据开发之旅,定会为您开启一扇通往智慧决策的新大门。
DWS Studio SQL编辑器
GaussDB(DWS)基于开源PG生态构建,目前用户普遍使用DAS连接集群,但DAS兼容多引擎,且其主要使用开源组件实现开发,对于GaussDB(DWS)语法兼容性并不完整,导致部分功能在使用DAS时会出现问题,适配DAS难度较大。在DWS侧用户只能做集群运维类操作,对于已有集群的使用如数据接入、开发、处理的能力目前只能零散依赖各服务,但各服务功能亦不完善,因此GaussDB(DWS)为用户提供了一站式数据开发、接入、处理等功能的数据开发工具,即GaussDB(DWS)线上SQL编辑器,以便用户能更好的使用GaussDB(DWS)。
数据开发工具目前支持用户直接在GaussDB(DWS)管理控制台上连接集群数据库,提供数据库的各种元数据列表详情展示功能,以及SQL编辑执行功能,返回结果还可以展示成不同图表,且结合OBS服务提供脚本保存功能,OBS可全局设置,将SQL语句保存成文本文件放到OBS中。
看完基本介绍,我们还是以练促学,结合沙箱实验来切身感受DWS Studio SQL编辑器的强大。
使用DWS导入MRS-Hive数据源实现融合分析
创建MapReduce服务(MRS)
点击右上角【购买集群】,选择页面顶部的【快速购买】页签,进行快速购买。
点击右上角【购买集群】,选择页面顶部的【快速购买】页签,进行快速购买。创建MRS需要等待15分钟。
创建DWS集群
点击右上角“创建数据仓库集群”。
按照需要配置设定即可,点击立即购买。
创建DWS需要等待15分钟,必须要dws成功运行才可以进行下一步操作,否则实验进度显示有问题
MRS和DWS集群创建完成
创建弹性公网IP(EIP)
弹性公网IP(Elastic IP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务。可以与弹性云服务器、裸金属服务器、虚拟IP、弹性负载均衡、NAT网关等资源灵活地绑定及解绑,提供访问公网和被公网访问能力。拥有多种灵活的计费方式,满足不同业务场景诉求。
鼠标移动到实验操作桌面浏览器页面中左侧菜单栏,在服务列表中,选择“网络 -> 弹性公网IP EIP”,进入弹性公网IP控制台。然后点击右上角“购买弹性公网IP”
将OBS桶数据导入Hive
登录华为云控制台点击【服务列表】,搜索栏中输入OBS,单击【对象存储服务 OBS】,进入“对象存储服务”页面,如下图所示:
准备txt数据源并上传OBS桶
在【实验操作桌面】上双击【Xfce终端】,打开Terminal终端,执行以下命令新建一个product_info.txt文件:
vim /home/user/Desktop/product_info.txt
输入”i”进入编辑模式,复制以下内容,并粘贴到product_info.txt中,如下图所示。
回到桌面浏览器的OBS管理控制台,左侧导航选择“桶列表”,单击新创建的桶名,左侧导航选择“对象”,单击“上传对象””。
点击“添加文件”选择实验室环境的“Desktop”目录下的product_info.txt文件,单击“Open”,再单击“上传”。等待上传成功。
上传成功后如下所示:
将txt数据导入Hive
返回到浏览器,切回MRS管理控制台,单击创建好的MRS集群名称,进入“概览”,单击“IAM用户同步”所在行的“同步”,等待约1分钟同步完成。
单击“节点管理”,单击任意一台master节点,进入该节点页面,切换到“弹性公网IP”,单击“绑定弹性公网IP”,勾选前序步骤创建的“eip-WP”的弹性IP并单击“确定”。记录此公网IP。
再切换到【安全组】,单击【配置规则】,选择【入方向规则】 > 【添加规则】。
①优先级:1
②协议端口:22
在【实验操作桌面】双击“Xfce终端”打开Terminal,输入以下命令登录MRS的Master节点。如下图。
切换到omm用户,并进入Hive客户端所在目录,执行环境变量,登录Hive客户端,显示如下图,表示登录成功。
执行以下语句创建demo数据库和表product_info。
回到浏览器的MRS管理控制台,单击【文件管理】 > 【导入数据】,【OBS路径】选择创建的obs-xx 的桶里面的product_info.txt,【HDFS路径】选择/user/hive/warehouse/demo.db/product_info/,单击【确认】。
回到“Xfce终端”命令行窗口,继续执行以下SQL语句,创建ORC表。
执行以下语句,将product_info表的数据插入到Hive ORC表product_info_orc中,返回如下图表示导入ORC表成功。
创建数据源连接
登录华为云控制台,鼠标移动到云桌面浏览器页面中左侧菜单栏,单击服务列表,搜索框中输入dws,选择数据仓库服务进入DWS控制台,如下图。
连接DWS数据库
登录华为云控制台,鼠标移动到云桌面浏览器页面中左侧菜单栏,单击服务列表,搜索框中输入dws,选择数据仓库服务进入DWS控制台,如下图。
左侧选择“集群 > 专属集群”,单击dws-demo集群右侧的“登录”。
登录成功后,进入SQL编辑页面。记得每次输入SQL语句,都要提前删除框内之前的代码。
这里,我们就见到了DWS Studio SQL编辑器的真容了。
通过HDFS外表导入Hive数据到DWS
执行以下SQL语句创建外表,其中MRS数据源名称替换成上面创建的MRS数据源名称mrs_server
执行以下SQL语句创建本地表。
执行以下SQL语句导入数据。
执行以下SQL查询数据。
实验至此结束。
使用体验
当初选择这个实验我也是深有考虑的,一个是能很好的体现DWS的能力,同时呢,也比较好的展现了DWS Studio SQL编辑器的操作。
说到DWS数据仓库,本人是再熟悉不过了,下面简要谈一下个人看法吧。
在日常工作中,数据仓库的性能、稳定性和易用性直接关系到我们分析效率和业务决策的速度。
GaussDB(DWS)采用的MPP(大规模并行处理)架构,确保了即使在处理海量数据时也能保持高速响应,这对于需要实时分析数据、快速响应市场变化的我们来说,无疑是一大助力。其分布式计算能力意味着随着数据量的增长,我们可以通过简单地添加更多节点来线性提升处理能力,无需担心性能瓶颈。
稳定性方面,GaussDB(DWS)内置的高可用机制和数据冗余设计,确保了数据服务的持续稳定运行。这意味着在任何单一硬件故障或网络问题发生时,系统都能够自动无缝切换,保障业务连续性,极大地减轻了我们运维团队的压力。
再说到易用性,DWS Studio SQL编辑器的设计深得我心。它不仅简化了与数据仓库的交互过程,还集成了众多实用功能,如智能代码补全、SQL执行历史记录、以及直接在编辑器内生成数据可视化图表等,这些都极大提升了我们数据分析师的工作效率。不需要额外跳转到其他工具,一站式完成数据查询、处理到呈现的全过程,使得数据分析变得更加流畅和直观,确实很赞!
除了这几个关键之外,随着可信和安可的要求,GaussDB(DWS)也表现出色,有提供全面的数据加密、严格的访问控制以及详尽的日志审计功能,确保数据在传输和存储过程中的安全性,符合各类行业规范和法律法规要求,这对于重视隐私保护和数据治理的企业而言,是极其重要的,也是我们选择它的重要原因之一。
所以,不管是应对大数据挑战、提升分析效率,还是确保业务连续性和数据安全性,GaussDB(DWS)都展现出了卓越的能力,在未来,随着数据量的持续增长和分析需求的日益复杂,我相信GaussDB(DWS)将会是我们团队以及更多企业数据化转型之路上的可靠伙伴。通过不断的学习与实践,我们能够更充分地发挥其潜力,为企业的智慧决策提供强有力的支持。
我正在参加【有奖征文 第30期】DWS Studio SQL编辑器革新数据仓库体验
链接:https://bbs.huaweicloud.com/blogs/428964
- 点赞
- 收藏
- 关注作者
评论(0)