ChatGLM模型中bin和safetensors区别是什么

举报
福州司马懿 发表于 2024/03/07 11:20:11 2024/03/07
【摘要】 前言在阿里魔塔上查看chatGLM3-6b的模型:https://modelscope.cn/models/ZhipuAI/chatglm3-6b/commitList可以看到,最新的master模型有两种后缀:bin 和 safetensorsbin 文件和 safetensors 文件都是用于存储大型语言模型(LLM)如 GPT、LLama2等的模型参数和权重的格式,但它们的具体用途和...

前言

在阿里魔塔上查看chatGLM3-6b的模型:https://modelscope.cn/models/ZhipuAI/chatglm3-6b/commitList

图片.png

可以看到,最新的master模型有两种后缀:bin 和 safetensors

bin 文件和 safetensors 文件都是用于存储大型语言模型(LLM)如 GPT、LLama2等的模型参数和权重的格式,但它们的具体用途和格式有所不同。

.bin 文件

  • .bin 文件通常是 PyTorch 模型的序列化格式。
  • 这种格式用于存储模型的权重和参数。它是一个二进制文件,通常与 .config 文件一起使用,后者存储模型的配置信息(例如层数、隐藏单元数等)。
  • .bin 文件可以通过 PyTorch 的 torch.save 函数创建,并可以通过 torch.load 函数加载。
  • 这种格式适用于快速保存和加载模型,但不一定优化了跨平台兼容性或安全性。

safetensors 文件

  • safetensors 是一个较新的格式,设计用于存储大型的、用于机器学习的张量数据。
  • 它特别关注于数据的安全性和有效性,例如通过验证数据的完整性来防止数据损坏。
  • safetensors 文件格式可能还包括了对数据布局和类型的优化,这有助于提高加载数据时的效率。
  • 这种格式通常用于大规模的、分布式的机器学习环境,其中数据安全和验证非常重要。

总的来说,选择哪种格式取决于具体需求。如果需要快速、简单地保存和加载模型,.bin 可能是更好的选择,如果关注于数据的安全性和大规模分布式环境下的效率,那么 safetensors 可能是更合适的选择。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。