跨平台分词利器:基于开发者空间进行仓颉版Tokenizer的Qwen模型适配
【摘要】 了解如何进行华为云的开发者云主机完成CodeArts IDE for Cangjie编辑器的部署,并利用该编译器对如何部署Qwen2模型以及Tokenizer的实际作用,体验其在模型开发中所扮演的角色。
📚案例概述
📖 背景与简介
华为开发者空间面向广大开发者群体提供专属的云上成长空间,预置免费华为跟技术工具和资源,为开发者提供学习、开发到部署的全旅程支持。
仓颉编程语言是一款面向全场景智能的新一代编程语言,主打原生智能化、天生全场景、高性能、强安全。主要应用于鸿蒙原生应用及服务应用等场景中,为开发者提供良好的编程体验。Tokenizer是连接自然语言与模型输入的关键组件,负责将文本转换为模型可处理的数字序列,并在推理时解码数字回文本。仓颉编写的分词器基于Huggingface标准格式,支持编码(文本→ID序列)和解码(ID序列→文本),兼容Qwen2系列模型的tokenizer.json文件。
🎯 案例优势:了解如何进行华为云的开发者云主机完成CodeArts IDE for Cangjie编辑器的部署,并利用该编译器对如何部署Qwen2模型以及Tokenizer的实际作用,体验其在模型开发中所扮演的角色。
🕹️ 案例流程
🎮 流程说明
-
- 登录华为开发者空间,进入开发者空间云主机;
- 练习使用CodeArts IDE for Cangjie编辑器;
- 下载完整Qwen2-0.5B模型并部署;
- 通过仓颉调用本地已部署的Qwen模型。
✍️ 案例实操:跨平台分词利器:仓颉版Tokenizer的Qwen模型适配 👈👈👈 体验完整版案例,点击这里
🌈 案例最终效果
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)