⽬前 主流的开源模型体系 有哪些?

举报
福大大架构师每日一题 发表于 2025/11/02 08:28:17 2025/11/02
【摘要】 ⽬前主流的开源LLM(语⾔模型)模型体系包括以下⼏个:GPT(Generative Pre-trained Transformer)系列:由OpenAI发布的⼀系列基于Transformer架构的语⾔模型,包括GPT、GPT-2、GPT-3等。GPT模型通过在⼤规模⽆标签⽂本上进⾏预训练,然后在特定任务上进⾏微调,具有很强的⽣成能⼒和语⾔理解能⼒。BERT(Bidirectional Enc...

⽬前主流的开源LLM(语⾔模型)模型体系包括以下⼏个:

  1. GPT(Generative Pre-trained Transformer)系列:由OpenAI发布的⼀系列基于Transformer架构的语⾔模型,包括GPT、GPT-2、GPT-3等。GPT模型通过在⼤规模⽆标签⽂本上进⾏预训练,然后在特定任务上进⾏微调,具有很强的⽣成能⼒和语⾔理解能⼒。
  2. BERT(Bidirectional Encoder Representations from Transformers):由Google发布的⼀种基于Transformer架构的双向预训练语⾔模型。BERT模型通过在⼤规模⽆标签⽂本上进⾏预训练,然后在下游任务上进⾏微调,具有强⼤的语⾔理解能⼒和表征能⼒。
  3. XLNet:由CMU和Google Brain发布的⼀种基于Transformer架构的⾃回归预训练语⾔模型。XLNet模型通过⾃回归⽅式预训练,可以建模全局依赖关系,具有更好的语⾔建模能⼒和⽣成能⼒。
  4. RoBERTa:由Facebook发布的⼀种基于Transformer架构的预训练语⾔模型。RoBERTa模型在BERT的基础上进⾏了改进,通过更⼤规模的数据和更⻓的训练时间,取得了更好的性能。
  5. T5(Text-to-Text Transfer Transformer):由Google发布的⼀种基于Transformer架构的多任务预训练语⾔模型。T5模型通过在⼤规模数据集上进⾏预训练,可以⽤于多种⾃然语⾔处理任务,如⽂本分类、机器翻译、问答等。

这些模型在⾃然语⾔处理领域取得了显著的成果,并被⼴泛应⽤于各种任务和应⽤中。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。