【趋势思考】我们该如何看待大模型?

举报
MUR11 发表于 2021/06/09 11:37:47 2021/06/09
【摘要】 自然语言处理(Natural Language Processing, NLP)领域中,近年来出现了一批以GPT、BERT为代表的大模型崭露头角,在各类任务上大幅提升了精度,并逐渐成为主流。但是大模型并不是万能的,在当前这个环境下,我们该如何看待大模型呢?

 

一、什么是大模型?

2012年,AlexNet横空出世,在当年的ImageNet物体识别竞赛中大幅超越第二名的成绩,一举将物体识别的错误率降低了10个百分点。自此之后,深度学习奠定了在计算机视觉领域中的主导地位。但是,由于缺少ImageNet那样的大规模训练样本,在目标检测、语义分割等其他计算机视觉任务中,端到端训练的深度学习模型往往效果不佳。为了解决这个问题,研究人员使用在大规模的ImageNet数据库上训练的模型参数作为初始模型参数,并在这组参数的基础上,在特定的任务上进行微调,在各项任务上获得了明显的提升。时至今日,这种做法已经成为了计算机视觉领域中的标准做法,并且往往预训练模型越大、使用的数据量越多,在下游任务上的性能也会越好。

那么,这种做法在其他领域中是否同样适用呢?近年来,在自然语言处理领域,深度学习模型逐渐开始崭露头角。相应地,更大更好的预训练模型也成为了研究的重点方向之一。在大公司的推动下,以GPT [1]BERT [2]GPT-2 [3]GPT-3 [4]为代表的大模型,规模逐步从几千万参数量提升到上千亿参数量,训练数据的规模也达到了几十TB的级别。以上述大模型的参数作为初始化,在特定的任务上经过参数微调后的模型的精度也逐步提升,大幅提升了各项任务上的基线。

 

二、大模型可以做什么?

以在大规模数据上训练的大模型作为初始化(或像GPT-3一样直接将任务和语句合并在一起输入大模型),几乎可以用于任意的自然语言相关任务,并取得很好的效果,以去年推出的GPT-3为例,可以实现的任务包括但不限于:

1)语句补全(acc指标越高越好,ppl指标越低越好):


2)回答问题(指标越高越好):


3)翻译(指标越高越好):


4Winograd Schemas Challenge(判断句子中代词指代的对象,指标越高越好):


5)常识推理(如“奶酪放进冰箱是否会融化?”,指标越高越好):


6)阅读理解(指标越高越好):

 

GPT-3的论文中,除了上述这些比较标准的自然语言处理任务,模型甚至可以进行三元计算、打乱词序重排语句、做SAT考试的多选题、生成新闻文章、改正语法错误等模型训练时没有遇到过的任务,并且取得了比较好的效果。

 

三、如何看待大模型.

虽然大模型在很多任务上都取得了不错的效果,但是大模型也并不是万能的。除了训练开销巨大之外(例如,OpenAI训练GPT-3模型花费了1200万美元),在精度上也还远远没有达到横扫一切任务的级别。

从上面的结果可以看出,GPT-3模型虽然在很多任务上达到了当前业界最好的效果,或者接近当前业界最好的结果,但是在很多任务上的精度仍然与当前业界最好的效果存在较大的差距。特别是回答问题、常识推理、阅读理解这些相对复杂的任务,目前的大模型还是无法很好的解决。

事实上,这并不是大模型自身才有的问题,而是整个深度学习算法通用的问题:目前的深度学习算法通过大量数据进行训练,在感知类任务(如识别、检测、翻译、补全句子等)上能够利用从大量数据中找到的规律,达到非常高的精度,在特定任务上的精度甚至可以超过人类;但是在更复杂的、需要逻辑/推理的认知类任务上,目前的深度学习算法仍然十分无力,总会犯一些看起来很蠢的错误。

因此,对于当前业界的这股“大模型热”,我们要理性看待,一方面大模型带来的性能提升确实使依赖于翻译、分类、检测这类任务的业务从无法落地变得可以落地了,带来了巨大的商业价值;另一方面,我们也不应该对大模型抱有过高的期待,在复杂的推理、分析任务中,现有的技术还远远达不到接近人的水平,至多只能对人工起到辅助的作用,这方面的研究任重而道远。

 

参考文献

[1] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving Language Understanding by Generative Pre-Training. 2018.

[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv 2018.

[3] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. 2019.

[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. Language Models are Few-Shot Learners. arXiv 2020.

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。