ChatGPT为代表的大语言模型为通用人工智能带来了曙光,然而,近年来模型参数量的增加速度远超集群规模和AI芯片的容量增长速度,带来了需求和算力的不匹配。利用有限的集群高效训练大型语言模型,是一个综合性的工程问题,往往涉及模型、并行算法、优化等的综合配合 本期第二讲的主题为:大规模语言模型并行训练系统和算法,任晓哲老师将综合介绍大规模语言模型训练的常见系统级和算法级技术,并通过最新的进展探讨未来发展的可能。
ChatGPT为代表的大语言模型为通用人工智能带来了曙光,然而,近年来模型参数量的增加速度远超集群规模和AI芯片的容量增长速度,带来了需求和算力的不匹配。利用有限的集群高效训练大型语言模型,是一个综合性的工程问题,往往涉及模型、并行算法、优化等的综合配合 本期第二讲的主题为:大规模语言模型并行训练系统和算法,任晓哲老师将综合介绍大规模语言模型训练的常见系统级和算法级技术,并通过最新的进展探讨未来发展的可能。