云计算行业应用—大数据@音视频(一)

举报
图森破 发表于 2021/06/26 10:50:14 2021/06/26
【摘要】        随着通信、互联网及物联网等技术的不断发展,企业所提供的互联网服务能够被越来越多的接入方式诸如:网页、手机终端、电视终端、家庭智能终端设备等进行访问。越来越细致多样的数据统计、收集方式的应用,使得越来越大规模的数据被生产出来。据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。       大规模...

       随着通信、互联网及物联网等技术的不断发展,企业所提供的互联网服务能够被越来越多的接入方式诸如:网页、手机终端、电视终端、家庭智能终端设备等进行访问。越来越细致多样的数据统计、收集方式的应用,使得越来越大规模的数据被生产出来。据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。

       大规模数据的产生需要大数据存储、大数据分析及应用的发展、支撑来发挥数据的潜在价值。伴随着人类产生数据量级的增长,大数据技术也在不断的更新和迭代,数据管理工具得到了前所未有的发展:从最初简单的数据库系统到如今规模庞大且功能强大的商业智能BI、数据仓库、数据湖、湖仓一体等概念,大数据的存储及处理技术日新月异,本系列将结合音视频业务,来对大数据领域的一些概念和相关云计算服务进行探讨。

1. 关系型数据库

        关系型数据库这个概念大家都很好理解,最直观的例子就是一个Excel表格。关系型数据库是高度结构化且规律数据的集合,具有结构化程度高、独立性强、冗余度低等特点。随着关系型数据库理论的不断丰富和数据库使用范围的不断扩大,这一领域逐步划分为两大基本类型:操作型数据库和分析型数据库。

        操作型数据库主要用于业务支撑,只会存放较为短期的数据,数据主要以细节数据为主,整体数据通常反应的是现实世界的当前状态。从操作上来讲,操作型查询的数据量少而频率多,允许用户进行增、删、改、查的操作,多用于用户、商家、进货商等业务环境角色。

        分析型数据库主要用于历史数据的分析,负责利用历史数据对公司各主题域进行统计分析。为了支撑分析,分析型数据库存放的是数年内的数据,用户重点关注的是其中所存储的汇总数据而不像操作型数据库的细节数据,使用者利用分析型数据库对历史阶段进行统计分析,最终制定综合性的决策。此类数据库大多只有查询功能,是针对各特定业务主体域的分析任务创建的,是一种“面向主题型数据库”。

2. 非关系型数据库

        与传统关系型数据库采用表格的存储方式,数据以行和列的方式进行存储不同,非关系型数据库NoSQL面对的是大量非结构化数据的存储如:键值对、文档、地理位置数据、图结构等。非关系型数据库采用的是动态结构,对于数据类型和机构的改变非常适应,可以根据数据存储的需要灵活的改变数据库的结构。

        非关系型数据库大致分为以下几类:

  • 文档数据库:这类数据库通常将每个键与称为文档的复杂数据结构配对。
  • 键值存储:键值存储是NoSQL数据库中最简单的数据库,其中每个单独的项都存储为键值对。
  • 宽列存储:此类数据库针对大型数据集上的查询进行了优化,将数据列存储在一起,而不是行。
  • 图存储:这类数据库是针对以“关系”为基础的“图”结构的数据进行查询、分析。广泛应用于社交关系分析、营销推荐、舆情探查、信息传播、风控等具有丰富关系数据的场景。

Figure 1 图数据结构

        以图结构数据的存储、分析为例,华为云提供了完整的图数据解决方案:华为云图引擎服务Graph Engine Service

        GES图引擎是一站式的图数据库、图引擎产品,支持图数据的存储和查询一体化,具备完善的图分析、查询、图深度学习和可视化能力。从层次结构来看,GES的产品服务结构可以分为四层,自底向上分别是云原生图存储、自研内核、查询与分析、图解决方案。云原生图存储提供了主备和存算分离模式的高可用服务,支持千亿点边的图数据存储;自研内核曾斩获2018年数博会、2019年人工智能峰会、2020年国际金融科技大会等多项大奖;查询与分析支持一份数据做两件事,查询与分析一体化,支持CypherGremlin两种主流查询语言及自研Rest API,提供了30多种高性能算法,包括10多种图神经网络与嵌入算法。当前,GES已应用于金融、政务、安平和工业等领域,为领域客户提供了多种性能优良的解决方案。

Figure 2 华为云GES服务架构图

3. 数据仓库

        在介绍数据仓库之前我们需要简单地介绍一下OLTPOLAP的概念。OLTPonline transaction processing 联机事物处理),简单理解就是符合ACID事物的数据库的增删改查,基本都是高可靠的在线操作;OLAPonline analytical processing 联机分析处理),查询频率较OLTP系统更低,但通常会涉及到非常复杂的聚合计算。OLAP系统以维度模型来存储历史数据,是为了分析数据而设计的,需要基于多维视图的数据操作来进行大量数据的汇总计算。OPAP系统数据来源于各种OLTP数据库,需要把各种来源于OLTP的异质数据通过ETL转换做到同质并合并。

        数据库的大规模使用和数据量级的飞速增长使得人们迫切的需要使用OLAP 来研究数据之间的关系并挖掘数据隐藏的价值,从而探究深层次的关系和信息,支撑决策者做出合理的决策。为了达到大规模数据OLAP分析以及解决不同数据库间数据不能共享、集成,把分布在各个散落独立的数据库孤岛整合在一个数据结构里面的问题,数据仓库(data warehouse)应运而生。

        数据仓库是一个面向主题的、集成的、相对稳定的、能反映历史变化的数据集合,用于支持管理中的决策制定。数据仓库的建立离不开处理各个数据孤岛(存储在不同的物理位置、不同的存储格式、不同的数据库平台、不同编写语言等)的过程,数据仓库需要将他们按照所需要的格式提取出来,再用ETL进行统一格式的转换、清洗,最后装载进数据仓库。数据仓库和OLAP互相促进发展,实现跨业务、夸系统的数据整合,为管理分析和业务决策提供统一的数据支持,进一步驱动了商务智能的成熟。

4. 数据集市

        数据集市(data mart)可以理解为是一种“小型数据仓库”,它只包含单个主题,且关注的范围也并非全局,是为了满足特定部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

        数据集市可以分为两种:

        一种是独立的数据集市,这类数据集市有自己的源数据库和ETL架构;

        另一种是非独立数据集市,这类数据集市有自己的源数据库,它的数据来自数据仓库。

5. 数据湖

Figure 3 数据湖

        数据湖(data lake)是当前比较火热的一个概念,为什么叫数据“湖”而不是“河”或是“海”,有一个很有意思的理解:“河”强调的是流动性,河最终是要流入大海的,而企业级数据是需要长期沉淀的,因此,“湖”比“河”更贴切;“海纳百川”,海给人们的印象是无边无界,而“湖”是有边界的,这个边界就是企业、组织的业务边界,因此数据湖需要更多的数据管理和权限管理能力。同时,湖水是天然分层的,满足不同的生态系统需求,这与企业建设统一数据中心,存放管理数据的需求是一致的,“热”数据在上层,方便应用随时使用;“温”数据、“冷”数据位于数据中心不同的存储介质中,达到数据存储容量与成本的平衡。叫“湖”的另一个重要原因是数据湖是需要精细治理的,一个缺乏管控、缺乏治理的数据湖最总会陷入“数据沼泽”,从而使应用无法有效访问数据,使湖中的数据失去价值。

        学术点来讲,数据湖是一个能够存放企业各种类型、各个阶段、各方来源数据的大型仓库,允许用户存储任意规模的所有结构化(行、列数据)、半结构化(如CSV、日志、XMLJSON)、非机构化(如email、文档、PDF)和二进制(如图像、音频、视频)数据。用户可以无需对数据进行结构化处理的对原样数据存储,并在存储数据之上运行不同类型的分析如SQL查询、大数据分析、全文搜索、实时分析和机器学习等来深度挖掘数据价值。

        总的来讲,数据湖具有的特点包含以下几点:

  • 数据湖可以存储任意类型的数据;
  • 数据湖需要提供足够大的数据存储能力来存储企业/组织所有数据,以及可扩展的大规模数据处理能力;
  • 数据湖中能够保持数据在它们业务系统中原来的样子,是业务数据的完成副本;
  • 数据湖需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等;
  • 数据湖需要具备多样化的分析能力,包括但不限于批处理、流处理、交互式分析以及机器学习;
  • 数据湖需要具备一定的任务调度和管理能力;
  • 数据湖需要具备完善的生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能够帮助用户完整详细追溯任意一条数据的产生过程;
  • 数据湖需要具备完善的数据获取和数据发布能力,能够支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据然后规范存储。能够将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求;

        华为云提供完整的数据湖解决方案,提供企业级的、满足大数据存储、分析多场景融合的的统一平台。它面向企业的大数据分析,提供海量数据存储、流处理、数据仓库、机器学习、查询检索等功能,覆盖企业大数据业务的多种场景。功能上,它是个开放的、分层解耦的架构,企业可以像搭积木一样按业务场景的需要来选择组件。

Figure 4 华为云数据湖解决方案

        综上,我们在本节沿着大数据相关业务需求和技术演进的发展方向,讨论了大数据相关基础技术的概念,从基础的关系型数据库出发,到对结构化数据精细分析的数据仓库、数据集市,再到不满足于结构化存储的非关系型NoSQL数据库,最后到“包罗万象”的数据湖。在下一章节中,我们会以音视频行业真实业务架构为例,进一步探索大数据相关技术及架构的演进和应用。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。