MRS集群功能介绍-Hive

举报
Ragnar 发表于 2020/08/25 14:09:55 2020/08/25
【摘要】 Hive是建立在Hadoop上的数据仓库框架,提供类似SQL的HiveQL语言操作结构化数 据,其基本原理是将HiveQL语言自动转换成MapReduce或HDFS任务,从而完成对 Hadoop集群中存储的海量数据进行查询和分析。Console控制台提供了Hive Script输 入入口,支持在线提交HiveQL语句。支持 HDFS Colocation HDFS Coloca...

Hive是建立在Hadoop上的数据仓库框架,提供类似SQL的HiveQL语言操作结构化数 据,其基本原理是将HiveQL语言自动转换成MapReduce或HDFS任务,从而完成对 Hadoop集群中存储的海量数据进行查询和分析。Console控制台提供了Hive Script输 入入口,支持在线提交HiveQL语句。

支持 HDFS Colocation    

    HDFS Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存 储节点上。 Hive支持HDFS的Colocation功能,即在创建Hive表时,通过设置表文件分布的locator 信息,可以将相关表的数据文件存放在相同的存储节点上,从而使后续的多表关联的 数据计算更加方便和高效。

支持列加密功能 

    Hive支持对表的某一列或者多列进行加密。在创建Hive表时,可以指定要加密的列和 加密算法。当使用insert语句向表中插入数据时,即可实现将对应进行列加密。 Hive列加密机制目前支持的加密算法有两种,具体使用的算法在建表时指定。 

    ● AES(对应加密类名称为:org.apache.hadoop.hive.serde2.AESRewriter) 

    ● SMS4(对应加密类名称为:org.apache.hadoop.hive.serde2.SMS4Rewriter)

支持 HBase 删除功能

由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语 法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。

支持行分隔符

    通常情况下,Hive以文本文件存储的表会以回车作为其行分隔符,即在查询过程中, 以回车符作为一行表数据的结束符。但某些数据文件并不是以回车分隔的规则文本格 式,而是以某些特殊符号分割其规则文本。 MRS Hive支持指定不同的字符或字符组合作为Hive文本数据的行分隔符,既在创建表 的时候,指定inputformat为SpecifiedDelimiterInputFormat,在每次查询前,设置如 下参数来指定分隔符,即可实现根据指定的分隔符查询表数据。

1
set  hive.textinput.record.delimiter= '' ;

支持 CSV SerDe

    CSV是一种常见的文本文件格式,其文件以纯文本形式存储表格数据(数字和文本), 并以逗号作为文本分隔符。 CSV文件具有较强的通用性,有许多应用程序允许用户查看和编辑CSV文件,可以方便 的在Windows Office或者一些传统数据库中使用。 MRS Hive增加了对CSV文件的支持,可以将用户的CSV文件导入Hive表中,或者将用 户的Hive表数据以CSV文件格式导出,从而方便在其他应用中使用。



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。