- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

UniT | Facebook发布全新智能通用Agent！

DrugAI 发表于 2021/07/14 22:46:14 2021/07/14

【摘要】   今天给大家介绍Facebook AI Research (FAIR)团队研究人员Ronghang Hu 和Amanpreet Singh合作发表在arxiv上的Unified Transformer框架：UniT，该框架可以同时进行多模态多任务预测。 UniT从跨领域的任务中学习最重要的任务，领域范围包括对象检测、语言理解和多模态推理等。Un...

今天给大家介绍Facebook AI Research (FAIR)团队研究人员Ronghang Hu 和Amanpreet Singh合作发表在arxiv上的Unified Transformer框架：UniT，该框架可以同时进行多模态多任务预测。

UniT从跨领域的任务中学习最重要的任务，领域范围包括对象检测、语言理解和多模态推理等。UniT模型使用编码器-解码器架构，编码器对输入模态进行编码，使用共享的解码器对编码前的输入进行解码，然后使用task specific的输出头进行任务预测。模型使用端到端的联合训练，每项任务的损失都会被计算在内。与以前使用Transformer进行多任务学习的研究相比，UniT任务共享相同的模型参数，而不是在不同的任务上微调。UniT可以处理多种跨领域任务。实验证实，UniT在八个数据集上同时学习七个任务，都获得了比已有工作更好的性能。图一是UniT的任务框架。

图一：UniT的任务框架

UniT模型框架

UniT建立在Transformer编码器-解码器体系结构上，跨模态同时学习多个任务。每个输入模态都有一个单独的编码器，所有任务共享一个解码器，外加一个task specific任务头进行预测。图二是UniT模型的技术框架。UniT考虑两种输入模态：图像和文本。对于图像输入，UniT应用卷积神经网络提取视觉特征，然后用Transformer编码器进一步将视觉特征编码到隐藏状态中，以融合全局上下文信息。对于语言输入，UniT使用BERT，将输入单词（例如questions）编码为BERT的最后一层隐藏状态。UniT将输入模态编码成隐藏状态序列之后，在单个编码模态或两个编码模态的串联序列上应用Transformer解码器。最后，特征表示被传递到一个task specific的head上，例如一个简单的两层分类器，输出最终的预测。UniT可以很容易地扩展到更多的模态和输入。实验结果表明，UniT模型可以在8个数据集上联合学习7个不同的任务，并获得不错的效果。图二是UniT模型的技术框架。

图二：UniT模型技术框架

总结

UniT证明了transformer框架可以应用于多个领域，在一个编解码器中联合处理多个任务。UniT模型同时处理八个数据集中的七个任务，并通过一组共享参数在每个任务上都实现强大的性能。通Transformer架构，UniT模型朝着构建通用智能Agent迈出了一步，该智能Agent能够处理不同领域的广泛应用，包括视觉感知、语言理解和多种模式的推理。

参考资料

Hu, Ronghang, and Amanpreet Singh. "Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer." arXiv preprint arXiv:2102.10772 (2021).

代码

https://mmf.sh/

文章来源: drugai.blog.csdn.net，作者：DrugAI，版权归原作者所有，如需转载，请联系作者。

原文链接：drugai.blog.csdn.net/article/details/114650661

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

UniT | Facebook发布全新智能通用Agent！

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

UniT | Facebook发布全新智能通用Agent！

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品