入门华为云服务的一些名词
入门华为云服务需要了解的一些名词:
MapReduce 是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",Mapper负责“分”Reducer负责对map阶段的结果进行汇总。
MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。
OpenTSDB时序数据库(Time Series Database)是用于存储和管理时间序列数据的专业化数据库,为时间序列数据提供高性能读写和强计算能力的分布式云端数据库服务。时序数据库特别适用于物联网设备监控和互联网业务监控场景。
实时流计算服务(Cloud Stream Service,简称CS),是运行在公有云上的实时流式大数据分析服务,全托管的方式用户无需感知计算集群,只需聚焦于Stream SQL业务,即时执行作业,完全兼容Apache Flink(1.5.3版本)API和Apache Spark(2.2.1版本)API。
DIS:数据接入服务(Data Ingestion Service)为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。
数据湖:汇聚各种类型数据的大型数据仓库;
数据湖探索(Data Lake Insight,DLI)是完全托管的大数据处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL,兼容SparkSQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或Spark程序就可以对华为云上CloudTable、RDS、DWS等异构数据进行探索。
OBS: 对象存储服务,归档数据, OBS对象存储则将元数据独立出来了,文件服务器;对象是数据存储的基本单位,在OBS中文件和文件夹都是对象。您可以上传任何类型(文本、图片、视频等)的文件,并在桶中对这些文件进行管理。 OBS管理控制台支持上传最大为50MB的单个文件。
数据仓库:业务数据库是面向操作的,主要服务于业务产品和开发,而数据仓库则是面向分析的,主要服务于我们分析人员。站在分析师的立场上考虑的,致力于解决使用业务数据进行分析带来的种种弊端。
使用Hive来储存数据,再使用基于Hive构建的多维查询引擎Kylin,把星型模型下所有可能的查询方案的结果都保存起来,用空间换时间,就可以做到高速查询,对大规模查询的耗时可以缩短到次秒级,大大提高工作效率。
- 点赞
- 收藏
- 关注作者
评论(0)