- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Kylin相关知识总结

多米诺的古牌发表于 2022/01/26 15:29:17 2022/01/26

【摘要】 1.Kylin前置知识官网（有官方中文版哦~）官网介绍：Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。1.1 数据仓库DW1.1.1 简介是将不同数据源的数据整合到一起，通过多维分析企业提供决策支持、报表、图标...

1.Kylin前置知识

官网（有官方中文版哦~）

官网介绍：Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

1.1 数据仓库DW

1.1.1 简介

是将不同数据源的数据整合到一起，通过多维分析企业提供决策支持、报表、图标生成等待。并且存入数据仓库的资源必须包含时间属性。

1.1.2 数仓和数据库的区别

数仓：是面向分析，存储的是历史数据，数据可能会存在大量冗余，但是利于多个维度查询，可以为决策者提供更多观察角度。（数据之间不能互相访问，即不同源，再将这个数据整合起来）

数据库：是面向事务，存储的是在线业务数据，对上层业务的改变会做出实时反映。

1.1.3 数仓和Kylin的关系

大数据领域常用的数仓有Hive，而Kylin是以Hive作为默认的数据源，在通过cube预计算（步骤前置了）后将结果存入到Hbase中（空间换时间）。

1.1.4 数仓出现的原因

是为了解决数据孤岛问题，即解决数据分散，不同源，各个数据只是在各自系统之中运行互相不能访问和影响，将数据整合在一起，可以从各个维度来进行观测和分析。

1.1.5 数据集市Data Mart

是缩小版的数据仓库，相当于主题域，属于部门（主题）级的观测视角的数据集合仓库。

1.1.6 数据来源

比如电商系统的数据来源，可能来自前端埋点之类的页面操作（行为数据），还有具体的业务数据等。

1.2 OLTP和OLAP

1.2.1 OLTP是联机事务处理，侧重于数据库crud等的常用业务操作。

1.2.2 OLAP是联机分析处理，是在大量历史数据的基础上配合时间点的差异，以多维度进行分析，多应用与数据仓库中。

1.4 数据分层

其中维度退化即将原来的表关联都返回来，形成一张不需要关联表的一张大表，虽然会出现冗余的数据但是会便利于查询。

1.5 维度和度量

1.3.1 维度（Dimension）是观察数据的角度，比如时间、地点等。（即sql中的Group By XXX的东西）

1.3.2 度量（Measure）是基于数据所计算出来的考量值。（即sql中查询出来的字段select和from直接求出的东西，比如数量、金额等）

1.6 cube和cuboid

cube（立方体）是在确定好的维度和度量之后，会进行预计算，即将查询提前了，将所有设置好的维度和度量全部查出来放在Hbase中，使用的时候就直接使用，所以速度会非常快。(eg:维度A和B组成4种： A、B、AB、还有种就是0没有维度的情况，所以这种不用统计)

首先需要创建一个数据模型，即对所有维度进行组合，对于这N个维度，组合的可能性共有2^N种（但实际使用是2^N-1种，因为0的那种不需要统计进来），这没一种维度的组合，将度量进行聚合运算，然后将运算结果保存为一个物化视图，称为Cuboid。而所有的Cuboid组合成一个整体称为Cube，即由多个按维度聚合的物化视图的集合。