2023长三角训练营华为昇思MindSpore创新训练营一等奖作品分享
笔者有幸在暑假的末尾参加了2023长三角训练营华为昇思MindSpore创新训练营,遇到了一群有趣的小伙伴,也做出了有意义的小项目。幸运的是,我们项目团队Object2Species不仅获得了一等奖,笔者也成为了优秀学生代表参与发言。下面简单介绍一下项目做了什么,项目也已经开源提交了一部分在xihe.mindspore.cn。
由于训练营是在上海交通大学创办的,笔者在逛校园的过程中,偶然看到了他们的植物园,就想着能不能做一个识别花卉的东西出来。但是识别花卉这件事情华为的微认证里面也有,就想着能不能在这个基础之上在补充扩展点内容。
现在的大模型在文本创作上有很好的表现,但是在多模态内容的处理上还比较欠缺。另外在社交媒体发布状态时,往往需要对图片配上文案,可能要冥思苦想才能想到比较匹配的文案。基于多模态模型和大语言模型,通过多模态模型获取图片的描述信息,然后再借助LLM的文本生成能力,对描述信息进行加工,生成和图片比较匹配的文案。 以下给出我们的技术方案:
一、 MindSpore下的图片识别
数据集所用到的花分类数据集有雏菊(daisy )、蒲公英(dandelion)、玫瑰花(roses)、向日葵(sunflowers)、郁金香(tulips)五个类别,每个类有大约250张训练图像、40张验证图像和1张推理图像。
模型训练使用MindSpore Vision中的Resnet50网络微调的方法在5种花卉的分类数据集上进行训练,并将微调训练好的CKPT模型文件转换为MINDIR格式,用于后续手机侧的部署。 Resnet是2015年由何凯明提出的一个分类网络模型,残差结构如下图所示:
图中输入x,输出为H(x)=F(x)+x,此公式可以直观地理解为输出来自两部分,一部分源于输入x本身,一部分源于将输入进行一系列非线性变换后的结果F(x)。需要网络学习的部分就是F(x)。
同时,我们也实现了图像分类模型文件在手机侧的推理功能,步骤如下: 转换文件格式:将MindIR文件格式,转换成Android手机上MindSpore Lite可识别的ms模型文件 应用部署:在手机侧部署应用APK,即下载一个MindSpore Vision套件Android APK 应用体验:最后将ms模型文件导入到手机侧后,体验花分类的识别功能 。
二、GIT
该模型试图简化模型架构,通过扩大模型大小与预训练数据规模取得了更高的性能。GIT的图像编码器使用了预训练好的模型,而文本编码器则是多层transformer堆叠成的,并且对其进行随机初始化,而非同使用BERT进行初始化,因为使用BERT会导致模型无法理解传入的图像信号。
通过这个GIT模型,就可以添加一个对图片实物的描述:(sunflower in the garden)
三、chatglm的重新调整
本部分基于MindSpore开发的mindformers框架,完成对ChatGLM模型的微调使用。 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。 如下图:
“花园里的向日葵,在阳光下绽放,像一位美丽的女子在微笑,散发着迷人的魅力 ”
四、可行性分析
(1)技术可行性:目前大型语言模型在文本生成方面已经有很强的能力,多模态模型在图像理解和描述上也在不断进步,将两者结合起来进行多模态创作是可行的。
(2)产品可行性:这一需求契合许多社交媒体用户的痛点,如果产品做得好,可以吸引大量用户。可以先做MVP validated需求,再逐步完善。
(3)商业可行性:可以通过提供创作服务收费,或者与社交平台合作进行商业变现。用户基数大,有望形成可观收入。
五、创新性
(1)在多模态领域,图像理解和语言描述生成的结合创新,可以产出更加逼真的图像文案
(2)基于用户生成内容的场景,采用了Resnet+GIT+ChatGLM的方案,兼具三者优势,为用户提供最佳体验
(3)从技术上实现多模态模型与语言模型的有效融合,探索多模态内容生成的新方向
(4)产品上符合用户创作需求的同时,也开拓了AI在UGC场景中的新应用,有助推动相关技术进步
六、后续计划
(1)优化图像信息获取方案,使用SAM CV大模型获取图像语义级信息,增加图像信息的丰富度
(2)使用文案优化数据对LLM进行模型微调,提升LLM在文案优化上的特定能力
(3)优化prompt模板,增加本地素材向量库,检索相关的素材加入prompt的context
(4)扩展应用场景,例如公众号文章创作,广告文案生成等。
七、学习心得分享
1、实践中的挑战与优化:在实践过程中,我们遇到了各种挑战,包括超参数的选择、模型的调优和数据的处理等。通过不断调试和优化,我们掌握了调整模型性能的技巧,提高了实验结果的准确度和效率。
2、多模型融合的优势:在训练营中,我们学习了如何将不同的语言模型进行融合,以进一步提升性能。通过将Transformer和BERT等模型进行组合,可以充分利用它们在不同任务上的优势,提高整体的性能表现。这种多模型融合的方法在实际应用中具有广泛的应用前景,对于解决复杂的自然语言处理问题非常有帮助。
- 点赞
- 收藏
- 关注作者
评论(0)