【愚公系列】《人工智能70年》046-生成式Al的辉煌与难题(大模型狂潮)

举报
愚公搬代码 发表于 2025/11/22 17:18:53 2025/11/22
【摘要】 💎【行业认证·权威头衔】✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"(2022-2024)🎖 双冠加冕CSDN"年度博客之星TOP...

在这里插入图片描述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析

🚀前言

无所不能的 ChatGPT,使人们对大语育模型的通用能力有了全新认识。

在这里插入图片描述

🚀一、大模型狂潮

作为生成式人工智能(AIGC)的基础,大语言模型(Large Language Models, LLMs)被誉为AIGC时代的“操作系统”,其发展历程源远流长。关于“大模型”这一关键概念究竟由谁在何时首次提出,目前尚未有明确且权威的定论。这也恰恰说明,大模型是在自然语言处理、深度学习以及Transformer架构等多种技术逐步融合与演进中逐渐成型的。

“人工智能”这一概念早在20世纪50年代便被提出,当时已出现早期的语言算法模型。随着深度学习的发展,自然语言处理(NLP)模型的规模持续扩大——尽管当时人们更多地将这种扩展理解为神经网络深度的增加。目前普遍认为,图灵奖得主、“深度学习三巨头”之一的约书亚·本希奥(Yoshua Bengio)于2003年提出的深度神经网络语言模型,是大模型发展历程中的一个重要里程碑。

大模型实现突破性进展是在2017年。谷歌的阿希什·瓦斯瓦尼(Ashish Vaswani)等8人(后来被称为“Transformer八杰”)发表了题为《Attention Is All You Need》的论文,提出了具有革命性意义的Transformer架构。如今,全球主流大模型均建立在这一架构基础之上,Transformer已成为大模型技术的核心基石。

Transformer的关键创新在于引入了“注意力机制”(Attention Mechanism)。该机制使模型能够在处理信息时自动“聚焦”于最重要的部分,类似于人类认知过程中的注意力分配,从而显著提升了模型处理复杂数据的准确性和效率。该架构被命名为“转换器”,正是因为模型借助注意力机制等组件,实现了将输入序列转换为输出序列的核心功能。

凭借强大的注意力机制与并行处理能力,Transformer架构展现出优秀的可扩展性——通过增加模型层数与参数规模即可有效提升性能,这也直接推动了模型规模的快速扩张,“大模型”的概念应运而生。

OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever)是大模型规模扩展的重要推动者。在他的主导下,GPT系列模型的参数量持续攀升:2018年GPT-1参数量为1.17亿(117M),2019年GPT-2增至15亿。一般认为参数量超过10亿的模型即可称为“大模型”。2020年GPT-3参数量跃升至1750亿,相比前代增长超百倍。2023年推出的GPT-4虽未官方公布参数规模,但外界估计已达到1.8万亿左右。

在大模型领域,参数量常以“B”(Billion,十亿)为单位计量,例如1750亿参数可写为175B。大模型的发展体现出“规模带来能力”的显著特性:当参数量与训练数据量超过某一临界点时,模型能力会发生质的飞跃,表现出一定程度的“智能涌现”(Emergence)——不仅能理解语言,还可认知语言所描述的世界,甚至完成未预设的任务。这一现象被称为“规模法则”(Scaling Law)。

在规模法则的推动下,开发机构持续扩大模型与算力投入,掀起全球大模型研发热潮。作为AI的“大脑”,大模型已成为科技巨头与创业公司的竞争焦点。2023年,中国科技企业也加入激烈竞逐,百度、阿里、腾讯、华为、小米、科大讯飞等纷纷推出自研大模型,智谱AI、月之暗面等新兴公司亦发布具有竞争力的产品,形成被称为“百模大战”的局面。截至2024年10月,中国已备案上线的大模型产品超过200个,注册用户总数突破6亿。

作为深度学习的新阶段,大模型的发展依赖于算法、算力与数据三大要素的全面升级:

  • 算力方面,大模型极大推升了对GPU等高性能芯片的需求,英伟达公司在2024年底登顶全球市值巅峰,正得益于大模型驱动的算力需求;
  • 数据方面,大模型对训练数据的规模与质量提出了空前要求。

理解大模型的数据需掌握两个基本概念:

  • 参数(Parameter):模型内部用于理解和生成文本、图像等内容的变量,可视作模型通过训练从外部信息中提取特征构成的“知识库”。参数规模达到千亿乃至万亿级别,意味着模型已涵盖近乎全部人类知识;
  • 词元(Token):由复旦大学邱锡鹏教授提出并广泛采纳的译法,指模型处理文本的基本单位,可以是单词、字符或更细粒度单元。训练数据量、上下文长度及生成速度等均以Token计量。例如,GPT-3训练集包含5000亿Token,约相当于7000亿字节,以汉字计约等同于20万套《四大名著》的总字数。

依托革命性算法、海量数据与强大算力,大模型正持续推动人工智能迈向新的发展阶段。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。