使用华为云SFS盘出现rpc_check_timeout:939 callbacks suppressed原因分析
【摘要】 使用华为云GPU裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接,并发的读写数据,做大模型训练。 发现读取速度变慢,并且SFS客户端报错"rpc_check_timeout:939 callbacks suppressed".。
0. 问题描述
华为云SFS: 是一种高性能文件存储,可以在裸金属服务器中中通过网络协议挂载使用,支持NFS和CIFS的网络协议。
笔者在使用华为云GPU裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接,并发的读写数据,做大模型训练。
但有时候发现读取速度变慢,并且SFS客户端报错"rpc_check_timeout:939 callbacks suppressed".
笔者一度以为是SFS服务端性能不够或者故障,但是经过一系列沟通定位, 并不是这样的。现总结如下。
1. 原因分析
笔者根据SFS客户端日志分析出现问题的时间点发现,sfs盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;
当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核就会打印"rpc_check_timeout:939 callbacks suppressed".日志。这个日志只是说明某个 IO 处理时间超过 1 分钟了,不会造成数据丢失。客户端有重试机制,等峰值过去后,所有 IO 最终都会正确处理。
所以理论上,出现该错误日志, 并不会造成数据丢失, 只是SFS客户端I/O速度变慢或卡顿,但最终会争取处理。
2. 建议方案
1. 结合当前购买的SFS盘性能规划自己的业务, 建议不要跑到性能上限,这样业务体验也不好;
2. 可以多买几个 sfs turbo 实例,分担一下压力, 或者更换超高性能的SFS盘;
3. 建议一个SFS实例容量不要搞太大,同样的成本可以多买几个SFS实例
3. 附SFS不同产品的性能一览图
详情可参考: https://console.huaweicloud.com/sfs/?locale=zh-cn®ion=cn-north-4#/sfs/createturbo
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)