《企业级大数据平台构建：架构与实现》—— 1.3.3　数据存储与查询

华章计算机发表于 2019/06/06 15:29:26 2019/06/06

【摘要】本书摘自《企业级大数据平台构建：架构与实现》——书中第1章，1.3.3节，作者是朱凯。

在数据接入大数据平台之后，就需要考虑如何存储这些海量数据的问题了。根据业务场景和应用类型的不同我们会有不同的存储需求。

1.?关系型数据模型

试想一下数据仓库的场景。数据仓库的定位主要是应用于联机分析处理（OLAP），

它不需要支持事务性的操作，只用专注于分析场景。它需要能够提供秒级到分钟级的海量数据查询能力。

在这种基于大数据技术的数据仓库背后，就是由一套支持关系型数据模型的分布式存储和查询引擎支撑的。为了支撑关系型数据模型，需要在分布式文件系统之上附加元数据管理的能力和SQL查询引擎的支持。又因为对查询的时效性要求很高并且数据量特别巨大，所以还需要使用高效的压缩与存储结构来进行数据的存储。

2.?非关系型数据模型

试想一下这样的场景，在一些实时数据计算的场景中，会有大量数据通过消息管道进入大数据平台，这些数据在实时计算的同时也需要存储下来；或是在分布式计算的场景中，各个服务器进程之间需要一个第三方扩展存储来共享一些中间计算结果。

这些场景通常都会采用非关系数据模型进行存储，并且要求毫秒到秒级的查询能力。所以需要存储服务在分布式文件系统之上建立索引结构，同时充分利用内存的能力进行性能提速。

3.?文档数据模型

Google的搜索服务改变了人们使用互联网的方式，它背后的核心武器便是搜索引擎。同样的，企业级搜索引擎的出现也改变了企业内部查找数据的方式。这些海量的数据会以文档数据模型的方式进行存储，并且要求毫秒级的查询能力。

由此我们可以得知大数据平台需要能够提供不同的存储模型和查询手段以满足不同的业务场景和需求。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。