浅谈我对数据湖Catalog的认识
在大数据时代,数据已经被公认为一项重要的资产,对于拥有大量数据的企业而言,如何整合数据,用好数据,让数据本身为我们产生更大的价值,形成数据资产,将是我们不得不面临的一个课题。而这些数据想要“变现”,就要快速的从数据中获取价值,在数据新时代中,在大量晦涩数据中查找数据所花费的时间多于分析数据的时间,为了使发现数据资产变的更加简单,就需要通过数据目录让各个组织内的晦涩数据变的更加明晰,随着企业体量增大,企业也需要更智能地处理这些横跨多个系统的数据,以及拉通管理这些数据进而产生更大的价值。
什么是数据湖
数据湖是一种存储架构,本质上讲是存储,企业基于云服务,可以快速挖出一个适合自己的“湖”,完成数据的采集、存储、处理、治理,提供数据集成共享服务、高性能计算能力和大数据分析算法模型,支撑经营管理数据分析应用的全面开展,为规模化数据应用赋能。数据湖技术架构涉及了数据接入(转移)、数据存储、数据计算、数据应用、数据治理、元数据、数据质量、数据资源目录、数据安全及数据审计等。数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖的优势就是数据可以先作为资产存放起来,问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后,数据治理问题将会接踵而至,这时有一个统一的数据目录来进行纳管,就显得很有必要了。
为什么不是数据池、数据海?
因为要有足够大的数据量,那么一个池子肯定存不下o(╥﹏╥)o,另外企业的数据要有边界,可以流通和交换,但更注重隐私和安全,因此也不能是数据海^_^
什么是元数据
这里给大家分享一句《DAMA数据管理知识体系指南》中的解释,元数据与数据的关系就像数据与自然界的关系,数据反映了真实世界的交易、事件、对象和关系,而元数据则反映了数据的交易、事件、对象和关系等。简单来说,只要能够用来描述某个数据的,都可以认为是元数据。
如果将一部电影看作数据,那么你在该电影海报上看到的所有信息,如电影名、导演、演员、制片人、电影类型等,都可以认为是这部电影的元数据。
对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。
什么是数据湖Catalog
数据湖Catalog是数据湖内统一的元数据目录,它可以帮助我们让数据资产发现变的更简单,更加快速的查找到你想要的数据,同时提供面向多引擎(Hive Spark DLI等)的公共元数据存储和统一元数据服务。
数据湖Catalog到底有什么价值
采集企业元数据,全面梳理企业数据信息资产
企业数据通常呈现碎片化分布,一共有多少系统,有多少个集群,各系统之间有哪些关联,各个集群的数据怎么拉通共享,数据湖Catalog可以帮助企业实现完整数据资产的整合,方便数据的交互和共享。
支撑多种分析引擎,迅速相应业务数据问题
数据湖Catalog可以对接多种分析引擎,例如Hive Spark 等。
面向数据治理,提供查询检索数据地图等元数据服务
数据湖Catalog对外提供Rest API和Thrift API接口支撑元数据服务。
统一版本管理,保障企业元数据一致性
数据湖Catalog在进行元数据管理中,要保证元数据的一致性和连续性,为上层分析引擎可靠的元数据结构,避免元数据错乱。
元数据变更监控,方便掌握数据资产变化
数据湖Catalog实现对元数据的可视化信息查看,实时监控元数据的变化,以及相关统计变化趋势。
数据湖Catalog作为系统元数据的纳管者,可以帮助企业方便、快速的把自身不同系统、不同集群的元数据接入到Catalog里,来创建自己企业级的数据资产目录,进行统一的管理和数据资产共享,进一步形成系统化数据资产的视图,从而精确把握数据获取数据,把数据转为有价资产。
- 点赞
- 收藏
- 关注作者
评论(0)