- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大模型场景下训练和推理性能指标名词解释

modelarts-dev-server 发表于 2023/11/25 15:40:40 2023/11/25

【摘要】大模型场景下训练和推理性能指标名词解释

指标	含义
token	token是文本的最小单位。在英文中，token 往往代表一个单词或一个标点符号；在中文中，token 往往代表一个字或词。
samples per second	每秒样本数，是指模型在训练或推理过程中每秒处理的样本数量，即训练时实际吞吐量。计算公式为： **samples/s = BS N / step time*** 其中，BS为batch size，N为GPU/NPU的数量，step time是在分布式集群中执行完一个BS的时间（秒）。
tokens per second	NLP中常用的吞吐量指标，表示在单位时间内模型能够处理的token数量。用于评估模型的推理或训练性能。计算公式为： *tokens/s = token len / cost time* 其中，token len为处理的文本中token的数量，cost time 为处理时间。
TFLOPs	FLOPs是Floating-point Operations Per Second的缩写，代表每秒所执行的浮点运算次数。往往用TFLOPs衡量计算能力，即每秒执行万亿次浮点运算。
TP	大模型训练时的并行策略，张量并行。可以将大模型的张量拆分为多个小块，分散到多个设备上，从而加快训练和推理的速度。详细可参考：https://zhuanlan.zhihu.com/p/581677880
PP	大模型训练时的并行策略，流水线并行。可以将模型的层或模块划分为多个阶段，并在不同的设备上并行执行这些阶段，从而提高计算效率和吞吐量。详细可参考：https://zhuanlan.zhihu.com/p/581677880
prompt	Prompt是一种由模型使用方提供的文本片段，用于在推理时引导大模型生成特定的输出。
cost time (或Inference time)	推理时间，指完成一次推理过程所需的总时间。包括加载模型、预处理输入、模型推理计算和后处理等步骤。耗时越短，意味着模型推理速度越快。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大模型场景下训练和推理性能指标名词解释

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

大模型场景下训练和推理性能指标名词解释

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品