UniT | Facebook发布全新智能通用Agent!

举报
DrugAI 发表于 2021/07/14 22:46:14 2021/07/14
【摘要】   今天给大家介绍Facebook AI Research (FAIR)团队研究人员Ronghang Hu 和Amanpreet Singh合作发表在arxiv上的Unified Transformer框架:UniT,该框架可以同时进行多模态多任务预测。 UniT从跨领域的任务中学习最重要的任务,领域范围包括对象检测、语言理解和多模态推理等。Un...

 

今天给大家介绍Facebook AI Research (FAIR)团队研究人员Ronghang Hu 和Amanpreet Singh合作发表在arxiv上的Unified Transformer框架:UniT,该框架可以同时进行多模态多任务预测。

UniT从跨领域的任务中学习最重要的任务,领域范围包括对象检测、语言理解和多模态推理等。UniT模型使用编码器-解码器架构,编码器对输入模态进行编码,使用共享的解码器对编码前的输入进行解码,然后使用task specific的输出头进行任务预测。模型使用端到端的联合训练,每项任务的损失都会被计算在内。与以前使用Transformer进行多任务学习的研究相比,UniT任务共享相同的模型参数,而不是在不同的任务上微调。UniT可以处理多种跨领域任务。实验证实,UniT在八个数据集上同时学习七个任务,都获得了比已有工作更好的性能。图一是UniT的任务框架。

图一:UniT的任务框架

UniT模型框架

UniT建立在Transformer编码器-解码器体系结构上,跨模态同时学习多个任务。每个输入模态都有一个单独的编码器,所有任务共享一个解码器,外加一个task specific任务头进行预测。图二是UniT模型的技术框架。UniT考虑两种输入模态:图像和文本。对于图像输入,UniT应用卷积神经网络提取视觉特征,然后用Transformer编码器进一步将视觉特征编码到隐藏状态中,以融合全局上下文信息。对于语言输入,UniT使用BERT,将输入单词(例如questions)编码为BERT的最后一层隐藏状态。UniT将输入模态编码成隐藏状态序列之后,在单个编码模态或两个编码模态的串联序列上应用Transformer解码器。最后,特征表示被传递到一个task specific的head上,例如一个简单的两层分类器,输出最终的预测。UniT可以很容易地扩展到更多的模态和输入。实验结果表明,UniT模型可以在8个数据集上联合学习7个不同的任务,并获得不错的效果。图二是UniT模型的技术框架。

图二:UniT模型技术框架

总结

UniT证明了transformer框架可以应用于多个领域,在一个编解码器中联合处理多个任务。UniT模型同时处理八个数据集中的七个任务,并通过一组共享参数在每个任务上都实现强大的性能。通Transformer架构,UniT模型朝着构建通用智能Agent迈出了一步,该智能Agent能够处理不同领域的广泛应用,包括视觉感知、语言理解和多种模式的推理。

参考资料

Hu, Ronghang, and Amanpreet Singh. "Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer." arXiv preprint arXiv:2102.10772 (2021).

 

代码

https://mmf.sh/

文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。

原文链接:drugai.blog.csdn.net/article/details/114650661

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。