HDFS异常下电后,DataNode实例状态异常(文件损坏)

举报
xxlla 发表于 2022/04/23 16:31:08 2022/04/23
【摘要】 适用版本6.5.x。问题背景与现象DataNode 实例状态异常,查看日志发现无法访问磁盘上某些文件。使用“ll 文件名”命令查看文件的属性为“??”。其他非HDFS文件读取失败,文件属性为“??”也可以参考此案例执行。可能原因对应DataNode节点的磁盘有坏道。原因分析进入服务实例,确认故障的节点使用PuTTY登录该节点,执行如下命令(这里/export/data1目录是DataNode...

适用版本

6.5.x。

问题背景与现象

  1. DataNode 实例状态异常,查看日志发现无法访问磁盘上某些文件。

  2. 使用“ll 文件名”命令查看文件的属性为“??”。

  3. 其他非HDFS文件读取失败,文件属性为“??”也可以参考此案例执行。

可能原因

对应DataNode节点的磁盘有坏道。

原因分析

  1. 进入服务实例,确认故障的节点

  2. 使用PuTTY登录该节点,执行如下命令(这里/export/data1目录是DataNode使用的数据目录)。

    ls -lR /export /srv 1>/dev/null

    按上图执行的结果可以确认是/export/data2的文件系统被损坏。

  3. 继续按上图的结果做进一步确认。按上图结果,执行如下命令:

    ls -l /export/data2/dfs/data/current/BP-1450212980-210.12.10.12-1461640104094/current/finalized/subdir1/subdir29/

    有带有问号的文件。

  4. 执行df -h,找到/export/data2所挂载的磁盘,本例中是/dev/mapper/VG_SR5S5-ExportData2

解决办法

  1. 执行如下命令进行修复。

    cd

    umount /export/data2

    xfs_repair /dev/mapper/VG_SR5S5-ExportData2

    mount -a

    • 本命令仅供参考。

    • 磁盘坏道导致文件无法读取,请联系OS和硬件部门人处理。

  2. 如果执行umount命令时,提示如下信息,则返回到FusionInsight Manager界面上停止故障的DataNode实例。

  3. 如果还有问题,则执行lsof | grep /export/data2查看是什么进程在使用这个目录。如果不是关键进程,则杀掉该进程。

  4. 如果前面停止了故障的服务,重新启动。

  5. 查看页面,如下图,已恢复正常。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。