【趋势思考】我们该如何看待大模型?
一、什么是大模型?
2012年,AlexNet横空出世,在当年的ImageNet物体识别竞赛中大幅超越第二名的成绩,一举将物体识别的错误率降低了10个百分点。自此之后,深度学习奠定了在计算机视觉领域中的主导地位。但是,由于缺少ImageNet那样的大规模训练样本,在目标检测、语义分割等其他计算机视觉任务中,端到端训练的深度学习模型往往效果不佳。为了解决这个问题,研究人员使用在大规模的ImageNet数据库上训练的模型参数作为初始模型参数,并在这组参数的基础上,在特定的任务上进行微调,在各项任务上获得了明显的提升。时至今日,这种做法已经成为了计算机视觉领域中的标准做法,并且往往预训练模型越大、使用的数据量越多,在下游任务上的性能也会越好。
那么,这种做法在其他领域中是否同样适用呢?近年来,在自然语言处理领域,深度学习模型逐渐开始崭露头角。相应地,更大更好的预训练模型也成为了研究的重点方向之一。在大公司的推动下,以GPT [1]、BERT [2]、GPT-2 [3]、GPT-3 [4]为代表的大模型,规模逐步从几千万参数量提升到上千亿参数量,训练数据的规模也达到了几十TB的级别。以上述大模型的参数作为初始化,在特定的任务上经过参数微调后的模型的精度也逐步提升,大幅提升了各项任务上的基线。
二、大模型可以做什么?
以在大规模数据上训练的大模型作为初始化(或像GPT-3一样直接将任务和语句合并在一起输入大模型),几乎可以用于任意的自然语言相关任务,并取得很好的效果,以去年推出的GPT-3为例,可以实现的任务包括但不限于:
(1)语句补全(acc指标越高越好,ppl指标越低越好):
(2)回答问题(指标越高越好):
(3)翻译(指标越高越好):
(4)Winograd Schemas Challenge(判断句子中代词指代的对象,指标越高越好):
(5)常识推理(如“奶酪放进冰箱是否会融化?”,指标越高越好):
(6)阅读理解(指标越高越好):
在GPT-3的论文中,除了上述这些比较标准的自然语言处理任务,模型甚至可以进行三元计算、打乱词序重排语句、做SAT考试的多选题、生成新闻文章、改正语法错误等模型训练时没有遇到过的任务,并且取得了比较好的效果。
三、如何看待大模型.
虽然大模型在很多任务上都取得了不错的效果,但是大模型也并不是万能的。除了训练开销巨大之外(例如,OpenAI训练GPT-3模型花费了1200万美元),在精度上也还远远没有达到横扫一切任务的级别。
从上面的结果可以看出,GPT-3模型虽然在很多任务上达到了当前业界最好的效果,或者接近当前业界最好的结果,但是在很多任务上的精度仍然与当前业界最好的效果存在较大的差距。特别是回答问题、常识推理、阅读理解这些相对复杂的任务,目前的大模型还是无法很好的解决。
事实上,这并不是大模型自身才有的问题,而是整个深度学习算法通用的问题:目前的深度学习算法通过大量数据进行训练,在感知类任务(如识别、检测、翻译、补全句子等)上能够利用从大量数据中找到的规律,达到非常高的精度,在特定任务上的精度甚至可以超过人类;但是在更复杂的、需要逻辑/推理的认知类任务上,目前的深度学习算法仍然十分无力,总会犯一些看起来很蠢的错误。
因此,对于当前业界的这股“大模型热”,我们要理性看待,一方面大模型带来的性能提升确实使依赖于翻译、分类、检测这类任务的业务从无法落地变得可以落地了,带来了巨大的商业价值;另一方面,我们也不应该对大模型抱有过高的期待,在复杂的推理、分析任务中,现有的技术还远远达不到接近人的水平,至多只能对人工起到辅助的作用,这方面的研究任重而道远。
参考文献
[1] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving Language Understanding by Generative Pre-Training. 2018.
[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv 2018.
[3] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. 2019.
[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. Language Models are Few-Shot Learners. arXiv 2020.
- 点赞
- 收藏
- 关注作者
评论(0)