- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

斯坦福发布最新 GPT 模型排行榜 AlpacaEval【AI工具免费使用】

袁袁袁袁满发表于 2023/10/19 17:58:30 2023/10/19

【摘要】 📌提炼GPT-4 登顶商用模型微软 WizardLM 登顶开源模型 ❓什么是 AlpacaEvalAlpacaEva 是来自斯坦福的团队发布的一款大语言模型自动评测系统，它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。同时包含了应的 AlpacaEval Leaderboard（大语言模型排行榜）。AlpacaEval 是一个模拟沙盒，能够快速、廉价地对从人类反馈中学...

📌提炼

GPT-4 登顶商用模型
微软 WizardLM 登顶开源模型

❓什么是 AlpacaEval

AlpacaEva 是来自斯坦福的团队发布的一款大语言模型自动评测系统，
它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。
同时包含了应的 AlpacaEval Leaderboard（大语言模型排行榜）。
AlpacaEval 是一个模拟沙盒，能够快速、廉价地对从人类反馈中学习的方法进行实验。它用API LLMs模拟人类反馈，提供一个经过验证的评估协议，并提供一套参考方法的实现。
虽然仅基于 GPT-4 进行自动评估，但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数，证明了 AlpacaEval 榜单排名的高可靠性。

🔎AlpacaEval 排行榜包含的测试模型和数据

选择了目前在商用领域和开源社区很火的模型，包括但不限于以下模型

GPT-4 (open ai)
Claude (anthropic)
PaLM 2 (google)
WizardLM (microsoft)

甚至还开设了一个 「准中文」 排行榜

💯在不同的测试集上各个大模型的能力评分

🚀AlpacaEval Leaderboard 大模型的能力综合评分

📌总结:

GPT-4 综合评分稳居第一，胜率超过了95%
胜率都在 80% 以上的 Claude 和 ChatGPT 分别排名第二和第三，其中 Claude 以不到 3% 的优势超越 ChatGPT-3.5。
值得关注的是，获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。WizardLM 以仅 130 亿的参数版本排名第一，击败了 650 亿参数量的 Guanaco。

💼 普遍国内白领如何快速应用大模型

对于国内的很多办公白领来说，使用 GPT 4服务的难度有些大，

需要特定的上网服务和国外邮箱
国外的信用卡
即使注册成功了还会有因为ip变动被封号的风险

在这里给大家推荐一个AI工具

可直接使用
用户使用体验良好
接口稳定

👑 TomChat（https://www.tomchat.fun）

官网地址：https://www.tomchat.fun

🤖 支持gpt4 / gpt-3.5 / claude /code-llm

🎨 支持 AI绘画

🆓 每天十次免费使用机会

🪄 无需魔法

🤖️在这个AI爆发的元年🎨

🤖️AI不能取代我们不会用AI的人才会被取代🎨

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长