TPC-H在DLI上的应用

举报
DLI_C 发表于 2020/05/25 16:09:22 2020/05/25
【摘要】 对于想了解DLI的用户来说,通过DLI内置的TPC-H测试套来进行一把简单高效的交互式查询是再好不过的事情。并且DLI已经把所有的东西都准备好了,且又是比较熟悉的SQL体验,无需用户上传数据,既可以体验到DLI的核心功能。 欢迎体验数据湖探索(DLI)服务:https://www.huaweicloud.com/product/dli.html​​

TPC-H样例数据简介

         TPC-H(商业智能计算测试) 是美国交易处理效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集.目前,在学术界和工业界普遍采用它来评价决策支持技术方面应用的性能. 这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,同时也具有普遍的商业实用意义,目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。

TPC-H 基准测试是由 TPC-D(由 TPC 组织于 1994 年指定的标准,用于决策支持系统方面的测试基准)发展而来的.TPC-H 用 3NF 实现了一个数据仓库,共包含 8 个基本关系,其数据量可以设定从 1G~3T 不等。TPC-H 基准测试包括 22 个查询(Q1~Q22),其主要评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间.TPC-H 基准测试的度量单位是每小时执行的查询数( QphH@size),其中 H 表示每小时系统执行复杂查询的平均次数,size 表示数据库规模的大小,它能够反映出系统在处理查询时的能力.TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数.总而言之,TPC 组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。

       本示例将演示DLI直接对存储在OBS中的TPC-H数据集进行查询的操作,DLI已经预先生成了100MTPC-H-2.18的标准数据集,已将数据集上传到了OBStpch文件夹中,并且赋予了只读访问权限,方便华为云用户进行查询操作。

TPC-H的测试和度量指标

TPC-H 测试分解为3 个子测试:数据装载测试、Power 测试和Throughput 测试。建立测试数据库的过程被称为装载数据,装载测试是为测试DBMS 装载数据的能力。装载测试是第一项测试,测试装载数据的时间,这项操作非常耗时。Power 测试是在数据装载测试完成后,数据库处于初始状态,未进行其它任何操作,特别是缓冲区还没有被测试数据库的数据,被称为raw查询。Power 测试要求22 个查询顺序执行1 遍,同时执行一对RF1 RF2 操作。最后进行Throughput 测试,也是最核心和最复杂的测试,它更接近于实际应用环境,与Power 测试比对SUT 系统的压力有非常大的增加,有多个查询语句组,同时有一对RF1 RF2 更新流。

测试中测量的基础数据都与执行时间有关,这些时间又可分为:装载数据的每一步操作时间、每个查询执行时间和每个更新操作执行时间,由这些时间可计算出:数据装载时间、Power@SizeThroughput@SizeQphH@Size $/QphH@Size

Power@Size Power 测试的结果,被定义为查询时间和更改时间的几何平均值的倒数,公式如下:

power.png

其中:Size 为数据规模;SF 为数据规模的比例因子;QI i0)为第 i个查询的时间,以秒为单位;RI j0)为 RFj更新的时间,以秒为单位。

Throughput@Size Throughput 测试的结果,被定义为所有查询执行时间平均值的倒数,公式如下:

QPH.png

业务场景

         对于想了解DLI的用户来说,通过DLI内置的TPC-H测试套来进行一把简单高效的交互式查询是再好不过的事情。并且DLI已经把所有的东西都准备好了,且又是比较熟悉的SQL体验,无需用户上传数据,既可以体验到DLI的核心功能。

欢迎体验数据湖探索(DLI)服务:https://www.huaweicloud.com/product/dli.html

操作说明

首先,登录华为云官网,搜索DLI,点击SQL编辑器,查看左边的default数据库->External中存在了8张数据表,对应图1.

此时你可以在模板处找到DLI为你预先创建好的SQL模板,包含22条标准的TPC-H查询语句,满足用户大部分的需求场景测试。

优势

1.      用户只需要登录DLI,完成授予权限,即可操作SQL语句;

2.      预置的22TPC-H SQL查询模板功能丰富,能满足大部分的商业场景,无需用户自行下载TPC-H的查询语句,省时省力;

3.      用最小的时间代价体验serverless化的DLI产品,领略数据湖带给我们的全新体验。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。