Orca LLM:模拟 ChatGPT 的推理过程

举报
yd_217961358 发表于 2023/09/13 13:35:03 2023/09/13
【摘要】 Orca 是一个 13B 参数模型,它学习模仿 LFM 的推理过程。它使用ChatGPT的渐进式学习和教师协助来克服能力差距。通过利用来自 GPT-4 的丰富信号,Orca 增强了其功能并提高模仿学习性能。
推荐:使用NSDT场景编辑器快速搭建3D应用场景

Orca LLM:模拟 ChatGPT 的推理过程

介绍

在大型语言模型(LLM)领域,人们一直在追求在不影响其效率的情况下增强小型模型的功能。传统的方法是使用模仿学习,其中较小的模型从大型基础模型(LFM)生成的输出中学习。然而,这种方法受到一些挑战的损害,包括来自浅层LFM输出的有限模仿信号,小规模的同质训练数据以及缺乏严格的评估。这通常会导致较小的模型模仿LFM的风格,而不是推理过程。

论文Orca:从GPT-4的复杂解释痕迹中逐步学习介绍了Orca,这是一个13亿参数模型,旨在模仿GPT-4等大型基础模型(LFM)的推理过程。与传统的大型语言模型(LLM)不同,Orca采用独特的培训方法,将渐进式学习和教师协助相结合,以克服较小的学生模型与较大的学生模型之间的能力差距。

培训方法


逆戟鲸的训练过程包括两个阶段。

在第一阶段,逆戟鲸接受 FLAN-5M 训练,其中包括 ChatGPT 增强。这个中级助教有助于弥合 Orca 和 GPT-4 之间的容量差距,后者的参数大小要大得多。通过利用 ChatGPT 的功能,Orca 受益于改进的模仿学习性能。

在第二阶段,逆戟鲸接受 FLAN-1M 的训练,其中包括 GPT-4 增强。这种渐进式学习方法遵循课程学习范式,学生模式从更简单的例子中学习,然后再处理更具挑战性的例子。通过逐渐让逆戟鲸接触越来越复杂的推理和逐步解释,该模型增强了其推理能力和模仿能力。

优势和贡献


与传统的LLM相比,Orca的培训方法具有几个优势。

首先,它通过利用中级教师模型解决了能力差距问题,使Orca能够从更有能力的来源学习。这种方法已被证明可以提高较小学生模型的模仿学习性能。

其次,Orca训练的渐进式学习方面使模型能够逐步建立其知识。通过从更简单的例子开始,逐渐引入更复杂的例子,Orca为推理和解释的生成奠定了更坚实的基础。

此外,Orca模仿GPT-4等LFM的推理过程的能力为提高各种任务的性能开辟了可能性。通过利用 GPT-4 的解释轨迹和分步思维过程提供的丰富信号,Orca 获得了宝贵的见解并提高了自己的能力。

性能基准

Orca在复杂的零镜头推理基准测试中表现出色。它的性能优于传统的最先进的指令调整模型,如Vicuna-13B,在Big-Bench Hard(BBH)等基准上超过100%,在AGIEval上超过42%。此外,Orca 在 BBH 基准测试中取得了与 ChatGPT 相同的分数,并在 SAT、LSAT、GRE 和 GMAT 等专业和学术考试中表现出有竞争力的表现。考虑到这些是没有思维链的零镜头设置,这尤其令人印象深刻,而且 Orca 在落后于 GPT-4 的同时仍然具有竞争力。

影响和未来方向

逆戟鲸的发展代表了LLM领域的重大进步。通过从丰富的信号中学习并模仿LFM的推理过程,Orca能够以高度的准确性执行复杂的推理任务。这具有广泛的影响,特别是在需要复杂推理和解决问题的领域。

此外,这项研究表明,从分步AI模型解释中学习是提高模型能力的一个有希望的方向。这为法学硕士领域的研究和开发开辟了新的途径。

结论


Orca提出了一种训练大型语言模型的新方法,将渐进式学习和教师协助相结合,以增强模仿学习。通过利用中级教师模型,逐步将学生模型暴露给更复杂的例子,Orca克服了能力差距,提高了推理和解释生成能力。该论文的发现有助于模仿学习技术的进步,并对未来语言模型的发展产生影响。

原文链接:Orca LLM:模拟 ChatGPT 的推理过程 (mvrlink.com)

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。