【大数据】关于hive中删除操作及HDFS回收站管理腾出空间的实操

举报
橙子园 发表于 2022/05/26 00:50:36 2022/05/26
【摘要】 一、删除 删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表...

一、删除

删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。

查询内、外部表有两个方法:
方法一:
hive shell中执行

describe extended tablename; 

  
 
  • 1

查看表的详细信息,外部表 tableType 字段会显示 EXTERNAL_TABLE,内部表 tableType字段会显示MANAGD_TABLE。

方法二:
在hive shell中执行

desc formatted tablename; 

  
 
  • 1

可以查看表的格式和详细信息,这里可以得到Table Type ,也可以根据Table Type知道表是内部表还是外部表。MANAGED_TABLE内部表,EXTERNAL_TABLE是外部表。

同时可以查看表的location ,直接指定的是hdfs的路径,则是外部表,如果指定的是Hive表数据存放的路径,则是内部表,hive表数据存放的路径在Hive的${HIVE_HOME}/conf/hive-site.xml配置文件中,hive.metastore.warehouse.dir属性指定的路径。

二、Hadoop回收站

Hadoop回收站trash,默认是关闭的。 可以对如下配置进行修改,回收站保留时间可以根据你的hadoop集群的存储空间、删除数据的频率、每天回收站回收的占用来决定。

**1.修改conf/core-site.xml,增加 **

<property>  
      <name>fs.trash.interval</name>  
      <value>1440</value>  
      <description>Number of minutes between trash checkpoints.  
      If zero, the trash feature is disabled.  
      </description>  
    </property>  

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

默认单位是分钟。这里我设置的是1小时(60*24=1440)
在hdfs的shell中删除数据后、hive删除表后都会将数据移动到该用户目录下的.Trash目录。

如果要手动清空垃圾回收站有两种方式

1、清空回收站命令:

hdfs dfs -expunge

  
 
  • 1

执行完之后会打一个checkpoint,并不会立即执行,稍后会执行清空回收站操作

2、删除.Trash目录(清理垃圾)

hadoop fs -rmr -skipTrash /user/$USER/.Trash

  
 
  • 1

注意:需要添加参数: -skipTrash 才会完全删除,如果不添加,会放到另外一个.Trash

恢复回收站数据,就是将HDFS中垃圾回收站的数据移回对应表的目录中

例如:

hadoop dfs -mv /user/$USER/.Trash/Current/user/$USER/in /user/hive/warehouse

  
 
  • 1

文章来源: blog.csdn.net,作者:橙子园,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/Chenftli/article/details/122977355

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。