多任务学习中的目标权重平衡(2)

举报
Euphonious 发表于 2021/06/23 15:53:04 2021/06/23
【摘要】 本文介绍多任务学习中目标权重平衡方法GradNorm。传统多任务目标函数构造的问题:多任务损失函数定义如下:相应的,随机梯度下降的权重更新公式如下:(注释:这里是共享层最后一层的权重,具体和多任务学习的网络构造有关,这里不做具体介绍。)当某一个任务的梯度占据主导地位,或者任务梯度冲突时,权重更新可能并不是最优的。 改进方法:本次介绍方法Gradnorm,通过调整不同loss的数量级和学习速度...

本文介绍多任务学习中目标权重平衡方法GradNorm。

  • 传统多任务目标函数构造的问题:

多任务损失函数定义如下:


相应的,随机梯度下降的权重更新公式如下:


(注释:这里是共享层最后一层的权重,具体和多任务学习的网络构造有关,这里不做具体介绍。)

当某一个任务的梯度占据主导地位,或者任务梯度冲突时,权重更新可能并不是最优的。

 

  • 改进方法:

本次介绍方法Gradnorm,通过调整不同loss数量级学习速度来平衡多个任务的学习情况。

 

  • Loss的数量级通过以下公式获得

其中为其中一个loss针对共享层参数求梯度的二范数,用量衡量第iloss的数量级;相应的代表了所有loss梯度的期望。

 

  • 学习速度通过以下公式获得

其中为第ilosst时刻的loss除以0时刻的loss,衡量第i个任务的反向训练速度,越小表示训练越快;代表了所有任务中,第i个任务的相对训练速度

 

  • Gradnorm通过数量级学习速度两个方面来构造Gradient Loss,具体公式如下:

其中α为超参数,如果某个loss数量级过大或者过小,训练速度过快,则会导致Gradient Loss变大,相应的Gradient Loss会反应在中每个任务的权重项w_i上。具体的,w_i的更新方式为:


 


参考文献:

[1]. Chen Z, Badrinarayanan V, Lee C Y, et al. Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks[C]//International Conference on Machine Learning. PMLR, 2018: 794-803.

 

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。