盘古金融领域模型,主流金融评测集大分位领先古金融领域模型,主流金融评测集大分位领先
9月19日,在华为全联接大会上,华为云重申了行业大模型的战略,[持续深耕行业,支持各行各业的客户做好自己的大模型,加速千行万业智能化],通过行业增训的盘古金融领域模型表现亮眼,在主流金融评测集上大分位领先。
在华为云官网上,我们可以看到模型及能力评测细节。盘古金融领域模型是基于盘古N2模型进行行业增量训练的百亿级模型,支持长序列推理及慢思考过程,对长输入有更准确的响应。
从评测集细节看,该大模型在四大金融榜单进行了能力测试,分别是
- FinancelQ:一个专注于金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力,包含注册会计师(CPA)、银行从业资格、基金从业资格、证券从业资格等多项金融领域考试
- OpenFinData:由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,其金融场景覆盖较全且专业性质深
- CFLUE:中国金融语言理解评估基准,旨在评估大型语言模型(LLMs)在各个维度上的能力,它提供了针对知识评估和应用评估量身定制的数据集
- FIN-eval:由蚂蚁集团、上海财经大学联合推出金融评测集覆盖财富管理、保险、投资研究等多个金融场景以及金融专业主题学科
在评测结果上可以看到,在四个榜单,Pangu-Finance-NLP-N2-128K相较于通用大模型DeepSeek-R1以及相似参数量相似的Qwen3-32B相比,整体提升了5-10个分位,在金融数学、金融术语及精算、保险、CPA等行业资格认知上,均有10%+的提升。
在行业大模型增训中,该模型融入了60+种类,4TB金融专有数据进行训练。其中,模型使用了大量金融相关的开源可验证题库(大于10W条)进行强化学习训练,并通过随机选项混合的方式对题库进行强化升级,增强了模型针对金融领域任务的可解释性及泛化性。
在行业大模型增训中,更强调强化学习对于行业模型的重要性。在强化学习算法选择上,模型选择了DAPO(Decoupled Clip and Dynamic sampling Policy Optimization,一种在GRPO基础上改进的强化学习算法)的强化算法,通过动态sampling获得稳定的奖励信号,保证训练任务的流畅运行,overlong penalty 维护推理回复的合理长度,实现了在保证正确率的情况下提升模型的可读性。同时,开发了专业性的金融计算奖励系统,可针对金融计算任务的结果进行精确性匹配,实现浮点计算精度自适应,数值计算格式模糊匹配等功能,确保奖励信号的丰富性及可靠性。
得益于上述创新技术,盘古行业大模型在领域评测中获得更高的评分,也使得盘古行业大模型在行业中发挥更大的价值,加速千行百业的智能升级。关于盘古行业大模型的更多信息以及试用咨询,可以访问官网
- 点赞
- 收藏
- 关注作者
评论(0)