- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Orca LLM：模拟 ChatGPT 的推理过程

yd_217961358 发表于 2023/09/13 13:35:03 2023/09/13

【摘要】 Orca 是一个 13B 参数模型，它学习模仿 LFM 的推理过程。它使用ChatGPT的渐进式学习和教师协助来克服能力差距。通过利用来自 GPT-4 的丰富信号，Orca 增强了其功能并提高模仿学习性能。

推荐：使用NSDT场景编辑器快速搭建3D应用场景

介绍

在大型语言模型（LLM）领域，人们一直在追求在不影响其效率的情况下增强小型模型的功能。传统的方法是使用模仿学习，其中较小的模型从大型基础模型（LFM）生成的输出中学习。然而，这种方法受到一些挑战的损害，包括来自浅层LFM输出的有限模仿信号，小规模的同质训练数据以及缺乏严格的评估。这通常会导致较小的模型模仿LFM的风格，而不是推理过程。

论文Orca：从GPT-4的复杂解释痕迹中逐步学习介绍了Orca，这是一个13亿参数模型，旨在模仿GPT-4等大型基础模型（LFM）的推理过程。与传统的大型语言模型（LLM）不同，Orca采用独特的培训方法，将渐进式学习和教师协助相结合，以克服较小的学生模型与较大的学生模型之间的能力差距。

培训方法

逆戟鲸的训练过程包括两个阶段。

在第一阶段，逆戟鲸接受 FLAN-5M 训练，其中包括 ChatGPT 增强。这个中级助教有助于弥合 Orca 和 GPT-4 之间的容量差距，后者的参数大小要大得多。通过利用 ChatGPT 的功能，Orca 受益于改进的模仿学习性能。

在第二阶段，逆戟鲸接受 FLAN-1M 的训练，其中包括 GPT-4 增强。这种渐进式学习方法遵循课程学习范式，学生模式从更简单的例子中学习，然后再处理更具挑战性的例子。通过逐渐让逆戟鲸接触越来越复杂的推理和逐步解释，该模型增强了其推理能力和模仿能力。

优势和贡献

与传统的LLM相比，Orca的培训方法具有几个优势。

首先，它通过利用中级教师模型解决了能力差距问题，使Orca能够从更有能力的来源学习。这种方法已被证明可以提高较小学生模型的模仿学习性能。

其次，Orca训练的渐进式学习方面使模型能够逐步建立其知识。通过从更简单的例子开始，逐渐引入更复杂的例子，Orca为推理和解释的生成奠定了更坚实的基础。

此外，Orca模仿GPT-4等LFM的推理过程的能力为提高各种任务的性能开辟了可能性。通过利用 GPT-4 的解释轨迹和分步思维过程提供的丰富信号，Orca 获得了宝贵的见解并提高了自己的能力。

性能基准

Orca在复杂的零镜头推理基准测试中表现出色。它的性能优于传统的最先进的指令调整模型，如Vicuna-13B，在Big-Bench Hard（BBH）等基准上超过100%，在AGIEval上超过42%。此外，Orca 在 BBH 基准测试中取得了与 ChatGPT 相同的分数，并在 SAT、LSAT、GRE 和 GMAT 等专业和学术考试中表现出有竞争力的表现。考虑到这些是没有思维链的零镜头设置，这尤其令人印象深刻，而且 Orca 在落后于 GPT-4 的同时仍然具有竞争力。

影响和未来方向

逆戟鲸的发展代表了LLM领域的重大进步。通过从丰富的信号中学习并模仿LFM的推理过程，Orca能够以高度的准确性执行复杂的推理任务。这具有广泛的影响，特别是在需要复杂推理和解决问题的领域。

此外，这项研究表明，从分步AI模型解释中学习是提高模型能力的一个有希望的方向。这为法学硕士领域的研究和开发开辟了新的途径。

结论

Orca提出了一种训练大型语言模型的新方法，将渐进式学习和教师协助相结合，以增强模仿学习。通过利用中级教师模型，逐步将学生模型暴露给更复杂的例子，Orca克服了能力差距，提高了推理和解释生成能力。该论文的发现有助于模仿学习技术的进步，并对未来语言模型的发展产生影响。

原文链接：Orca LLM：模拟 ChatGPT 的推理过程 (mvrlink.com)

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Orca LLM：模拟 ChatGPT 的推理过程

介绍

培训方法

优势和贡献

性能基准

影响和未来方向

结论

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Orca LLM：模拟 ChatGPT 的推理过程

介绍

培训方法

优势和贡献

性能基准

影响和未来方向

结论

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品