他的回复:
1. 自动并行技术就是通过对硬件资源和模型结构、参数量进行建模,来搜索最优切分策略。切分策略的优劣会直接影响训练速度,但是对模型性能没有直接影响。具体可以参考我们的分布式并行设计:https://mindspore.cn/docs/zh-CN/r2.0/design/distributed_training_design.html 2. 大模型场景,模型体量越大越有优势 3. 大规模分布式训练的准确性其实是由硬件使能库和通信库保证,如CANN/CUDA和NCCL/HCCL。针对稳定性我们有故障恢复的设计,参考:参考:https://mindspore.cn/tutorials/experts/zh-CN/r2.0/parallel/fault_recover.html