2023长三角训练营华为昇思MindSpore创新训练营一等奖作品分享

举报
Sqweric 发表于 2023/12/07 22:11:39 2023/12/07
【摘要】 本文主要记录一下笔者参加2023长三角训练营华为昇思MindSpore创新训练营的作品,做的是一个图像识别与描述生成,实际做了两天不到。

        笔者有幸在暑假的末尾参加了2023长三角训练营华为昇思MindSpore创新训练营,遇到了一群有趣的小伙伴,也做出了有意义的小项目。幸运的是,我们项目团队Object2Species不仅获得了一等奖,笔者也成为了优秀学生代表参与发言。下面简单介绍一下项目做了什么,项目也已经开源提交了一部分在xihe.mindspore.cn。

截屏2023-12-07 21.51.52.png

      由于训练营是在上海交通大学创办的,笔者在逛校园的过程中,偶然看到了他们的植物园,就想着能不能做一个识别花卉的东西出来。但是识别花卉这件事情华为的微认证里面也有,就想着能不能在这个基础之上在补充扩展点内容。

        现在的大模型在文本创作上有很好的表现,但是在多模态内容的处理上还比较欠缺。另外在社交媒体发布状态时,往往需要对图片配上文案,可能要冥思苦想才能想到比较匹配的文案。基于多模态模型和大语言模型,通过多模态模型获取图片的描述信息,然后再借助LLM的文本生成能力,对描述信息进行加工,生成和图片比较匹配的文案。 以下给出我们的技术方案:

    一、  MindSpore下的图片识别

       数据集所用到的花分类数据集有雏菊(daisy )、蒲公英(dandelion)、玫瑰花(roses)、向日葵(sunflowers)、郁金香(tulips)五个类别,每个类有大约250张训练图像、40张验证图像和1张推理图像。 

        模型训练使用MindSpore Vision中的Resnet50网络微调的方法在5种花卉的分类数据集上进行训练,并将微调训练好的CKPT模型文件转换为MINDIR格式,用于后续手机侧的部署。 Resnet是2015年由何凯明提出的一个分类网络模型,残差结构如下图所示:      

        图中输入x,输出为H(x)=F(x)+x,此公式可以直观地理解为输出来自两部分,一部分源于输入x本身,一部分源于将输入进行一系列非线性变换后的结果F(x)。需要网络学习的部分就是F(x)。 

        同时,我们也实现了图像分类模型文件在手机侧的推理功能,步骤如下: 转换文件格式:将MindIR文件格式,转换成Android手机上MindSpore Lite可识别的ms模型文件 应用部署:在手机侧部署应用APK,即下载一个MindSpore Vision套件Android APK 应用体验:最后将ms模型文件导入到手机侧后,体验花分类的识别功能 。

二、GIT

        该模型试图简化模型架构,通过扩大模型大小与预训练数据规模取得了更高的性能。GIT的图像编码器使用了预训练好的模型,而文本编码器则是多层transformer堆叠成的,并且对其进行随机初始化,而非同使用BERT进行初始化,因为使用BERT会导致模型无法理解传入的图像信号。 

       通过这个GIT模型,就可以添加一个对图片实物的描述:(sunflower in the garden)

三、chatglm的重新调整

         本部分基于MindSpore开发的mindformers框架,完成对ChatGLM模型的微调使用。        ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。 如下图:

“花园里的向日葵,在阳光下绽放,像一位美丽的女子在微笑,散发着迷人的魅力 ”

四、可行性分析

(1)技术可行性:目前大型语言模型在文本生成方面已经有很强的能力,多模态模型在图像理解和描述上也在不断进步,将两者结合起来进行多模态创作是可行的。

(2)产品可行性:这一需求契合许多社交媒体用户的痛点,如果产品做得好,可以吸引大量用户。可以先做MVP validated需求,再逐步完善。

(3)商业可行性:可以通过提供创作服务收费,或者与社交平台合作进行商业变现。用户基数大,有望形成可观收入。 

五、创新性 

(1)在多模态领域,图像理解和语言描述生成的结合创新,可以产出更加逼真的图像文案

(2)基于用户生成内容的场景,采用了Resnet+GIT+ChatGLM的方案,兼具三者优势,为用户提供最佳体验

(3)从技术上实现多模态模型与语言模型的有效融合,探索多模态内容生成的新方向

(4)产品上符合用户创作需求的同时,也开拓了AI在UGC场景中的新应用,有助推动相关技术进步 

六、后续计划 

(1)优化图像信息获取方案,使用SAM CV大模型获取图像语义级信息,增加图像信息的丰富度

(2)使用文案优化数据对LLM进行模型微调,提升LLM在文案优化上的特定能力

(3)优化prompt模板,增加本地素材向量库,检索相关的素材加入prompt的context

(4)扩展应用场景,例如公众号文章创作,广告文案生成等。 


七、学习心得分享 

1、实践中的挑战与优化:在实践过程中,我们遇到了各种挑战,包括超参数的选择、模型的调优和数据的处理等。通过不断调试和优化,我们掌握了调整模型性能的技巧,提高了实验结果的准确度和效率。

2、多模型融合的优势:在训练营中,我们学习了如何将不同的语言模型进行融合,以进一步提升性能。通过将Transformer和BERT等模型进行组合,可以充分利用它们在不同任务上的优势,提高整体的性能表现。这种多模型融合的方法在实际应用中具有广泛的应用前景,对于解决复杂的自然语言处理问题非常有帮助。 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。