建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块

公安大数据

发帖: 1粉丝: 1

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-7-28 15:46:11 6823 6 楼主 显示全部楼层
[技术交流] DWS数据仓库(LibrA)与GBASE 8A性能对比测试


    以前接触的数据库都是ORACLE,基本上也就百来万的业务数据,轻车熟路用起来也没啥不妥。近几年开始接触到几十亿的海量数据,而且是上亿数据间的join,用ORACLE几乎是噩梦了。虽然也有去了解到流行的hadoop、hive、hbase、spark、greenplum,个个看起来都是高大上,但实际弄起来真是晕头转向。

废话不多说,没人在乎你经历了什么。我这边比较中意的是南大通用的GBASE 8A和华为的DWS数据仓库(LibrA),它们都是分布式MPP数据库。
        GBASE用起来比较像mysql,所以遇到问题可以百度mysql,例如“mysql 字符串转日期”,搜出的答案就能帮到你。另外还兼容了ORACLE的一些语法,例如“||”和“concat”都可以用,采用了列式存储。
        DWS数据仓库是华为在互联网的名字,实际的产品叫FusionInsight LibrA,用起来很像gp,所以有时候可以百度gp,例如“greenplum 字符串转日期”,搜出的答案也能帮到你。支持行存和列存。
    我比较关心的是性能,主要用途是条件过滤where、group、join。分析的场景有,酒店同住、车辆伴行、资金流回归等…,我主要是做应用开发的,测试不专业,就用实际需求场景直接测试吧,最终用户用的感觉才是最具有说服力的。
测试思路:
1、表复制速度——表复制指的是create table tableB as select a,b,c from tableA where…这样的功能,因为我们需要把一些运算的中间结果存储成物理表,然后再进行下一步分析。
2、模糊检索速度——模糊检索一般不会用到索引,所以扫描时一般都的全表扫描,是衡量查询速度的重要指标。
3、多列读取速度——列式存储有个缺点就是,多个列做条件查询时比行存快很多,但查询出来的结果要合并成一行就会比较慢了。
4、时间条件过滤速度——时间过滤一般都很快的,但它是最频繁使用的条件。
5、group性能——group常常用于分析频率或单纯用来做数据去重。
6、join性能——join是挖掘数据价值最重要的方式,通过数据碰撞可以挖掘出数据间的联系,找出吻合多个特征的群体。
从算法本身性能而言大概是:select > group > join
从算法产生的价值而言大概是:join>group>select ,价值越高的运算,我们就要更关注其性能。
一、硬件对比

华为
GBASE
节点数
3
1
CPU
通用型Ⅲ代|4 vCPUs,看不出什么CPU
Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz,10物理核心40线程
内存
32G
128G
硬盘
1个节点1个SSD固态盘,3节点总共3个,480G
2块 1T万转sata盘,2块800M SSD固态盘,共3.5T左右
    很遗憾的是两边硬件不一致,华为硬件要强一些,具体强多少不知道,华为是申请的一个月免费DWS数据仓服务,GBASE是装的一台单机服务器。先初步定为华为硬件是GBASE的2倍,为什么这么说,因为表复制和无索引的扫描基本上是纯拼硬件,没有什么高深的协调算法的。他们在这方面基本上差别2倍左右。
由于DWS同时支持行存和列存,所以我们这里主要做列存对比,行存辅助观察。


表格粘贴不进来,又无法放附件,不过放图片挺好的,格式还不乱:







    以上就是我的评测结果,总的来说DWS比GBASE快了10来倍,算上硬件上是GBASE 2倍的话,DWS感觉也是GBASE的5倍。可能很多人还是不服气,认为DWS是3节点,而GBASE是单节点太吃亏,没关系,大家喜欢的话就点赞,下次我会找机会分享集群版4节点的GBASE测评结果的,欢迎持续关注。有需要测试原始报告和测试源数据的,可以下方留下邮箱,你也去试试你的数据库性能吧!有好的记得推荐给我哦~

    42行模糊查询group那一块差异有些反常,我还不知道怎么解释,希望大神路过给点小小的提示!

    不管怎么,我也是瞬间被DWS吸粉了,不过我是先接触GBASE的,两个都挺喜欢的,此生能用上这些高性能的数据库真是太幸福了。他们两家都非常用心的准备了详细的数据库说明书,在客户端工具中,都提供了一些语法说明。尤其是DWS提供了超多语句样例,而且在你输入“select”“alter”之类的命令时,自动给你匹配出相应的语法说明与样例,真是贴心小暖男。说到这里就吐槽下oracle了,性能就不说了,感觉oracle做了这么多年,客户端做的纯属摆设,万年不变的5毛钱特效,最后大家还以为plsql才是oracle的配套客户端。GBASE和DWS在官网上都有便捷的资料下载入口,整理的工工整整的。oracle就做了个中文的门面,点几下就变英文版了,赚了中国这么多年的钱,能不能给技术人员用点心啊,相信大家用oracle遇到问题都是在问百度和论坛的热心人士吧,这么多人为oracle做技术支持,oracle就不能走点心啊?


精彩图片赏析:
DWS客户端

dws1.pngDWS客户端

GBASE客户端
g1.pngGBASE客户端


举报
分享

分享文章到朋友圈

分享文章到微博

小仓

发帖: 7粉丝: 0

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-7-28 16:36:11 沙发 显示全部楼层

收藏了,测试结果很详细。

点赞 回复 举报

DWS-Suppor...

发帖: 20粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-7-28 17:49:13 板凳 显示全部楼层

非常专业和详尽!


测试环境对比GBase测试硬件的cpu型号对应的是Intel V4的10物理核心,20vcpu,整体CPU/内存配置,GBase测试环境好于DWS;磁盘如果是单盘的话,能力弱于DWS。

点赞 回复 举报

公安大数据

发帖: 1粉丝: 1

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-7-30 16:31:39 地板 显示全部楼层

   

DWS-Support 发表于 2018-7-28 17:49非常专业和详尽!测试环境对比GBase测试硬件的cpu型号对应的是Intel V4的10物理核心,20vcpu,整体CPU/内存 ...

嗯,没错,GBASE应该是10物理核心的,6核是我网上查的。

我cat /proc/cpuinfo查看系统信息,总共会列出40个processor,这是最后一个

processor: 39

vendor_id: GenuineIntel

cpu family: 6

model: 79

model name: Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz

stepping: 1

cpu MHz: 1200.000

cache size: 25600 KB


不知道DWS的3个节点的CPU跟GBASE的差别如何,因为DWS只提供了数据库,没提供操作系统,无法查看其CPU型号。

DWS的3个节点总共就是3个盘,核实了一下GBASE服务器 2块 1T万转sata盘,2块800M SSD固态盘


点赞 回复 举报

DWS-Suppor...

发帖: 20粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-7-30 17:56:37 5# 显示全部楼层

好的,DWS的M系列挂的是SSD网络盘,和实际物理机直接读取本地盘的IO能力比,会弱一些。

如果这样看,整体的配置对比如下:

配置 GBase  |DWS

CPU:40vcpu | 12vcpu

MEM:128GB  | 96GB

IO:2HDD+2SSD| 3SSD(网络存储)

网络:xxx   | 1000Mb

点赞 回复 举报

向后看齐

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-9-20 15:55:50 6# 显示全部楼层

测试环境差异太大,当CPU\MEM未到极限的情况下,IO是性能关键,SSD与硬盘比scan速度么?

点赞 回复 举报

Harvey

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-5-13 11:36:32 7# 显示全部楼层

测试结果很详细,谢谢楼主!

点赞 回复 举报

游客

您需要登录后才可以回帖 登录 | 立即注册