NVMe 盘故障排查 5 步速查

举报
久绊A. 发表于 2025/11/21 13:08:00 2025/11/21
【摘要】 🔍 1. 先看系统日志:确认错误是否持续dmesg | grep nvme9n1 | tail -50看是否 持续报错(比如每几秒一次 I/O error)。如果只有 一两次,可能是偶发,不一定真坏。如果 每隔几秒就蹦出 I/O error → 盘基本正在恶化,必须马上换。如果 只有孤零零的一两条 → 可能是链路瞬断或机房抖动,先别急着拆盘,继续往下验证。🔍 2. 用 NVMe 工具查健...

🔍 1. 先看系统日志:确认错误是否持续

dmesg | grep nvme9n1 | tail -50

看是否 持续报错(比如每几秒一次 I/O error)。

如果只有 一两次,可能是偶发,不一定真坏。

如果 每隔几秒就蹦出 I/O error → 盘基本正在恶化,必须马上换。

如果 只有孤零零的一两条 → 可能是链路瞬断或机房抖动,先别急着拆盘,继续往下验证。

🔍 2. 用 NVMe 工具查健康状态

sudo smartctl -a /dev/nvme9n1

字段

正常值

说明

Critical Warning

0x00

非 0 就报警

Media and Data Integrity Errors

0

非 0 → 盘已出现不可修复错误

Error Information Log Entries

不增长

持续增加 → 盘正在恶化

Percentage Used

< 100%

≥ 100% → 盘寿命已尽

🔍 3. 查看 NVMe 错误日志

sudo nvme error-log /dev/nvme9n1

看是否有 大量报错错误条数 >100每次查询都在涨 → 盘片/固件/链路至少有一个在持续出错,建议直接踢盘

错误条数 个位数且长期不变 → 可再观察一轮,结合业务压力决定是否换。

🔍 4. Pangu 集群整体健康

/apsara/deploy/puadmin summ

/apsara/deploy/puadmin summ(= summary)只能看整体看不出哪块盘坏,但能快速告诉你“有没有必要继续挖”

关键栏

数值

含义

Abnormal Chunks

2

只有 2 个 chunk 副本数不足 风险极低

DISK_OK

252 / 252

所有磁盘状态正常没有盘被标 fault

summary 层面看不到设备级细节无法直接确认 nvme9n1 是否涉及那 2 个异常 chunk

252 块盘全部 DISK_OK,说明 Pangu 还没把 nvme9n1 标记为故障

Abnormal Chunks 只有 2 个且 副本数并未归零 → 全局数据安全,今晚可以睡个好觉

DISK_OK 252/252 → 说明 Pangu 还没把这块盘标成 FAULT,但注意:底层硬件报错可能早于集群感知 6~12 小时,所以不能单看这一条就“高枕无忧”。

🔍 5. 检查文件系统是否只读或掉盘

lsblk | grep nvme9n1
mount | grep nvme9n1

如果盘已掉线lsblk 看不到),或文件系统变只读,说明盘已不可恢复

lsblk 里消失 → 内核已失联,盘大概率掉线,不用再犹豫了,直接走换盘流程

mount 状态出现 ro, (read-only) → 内核主动保护,说明 FS 层已不信任该盘,业务写入会挂,必须立即隔离

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。