机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则

举报
格图洛书 发表于 2021/12/30 00:52:00 2021/12/30
【摘要】   在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中,我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候,求导的自变量和因变量直接有复杂的多层链式求导的关系,此时微分法使用起来也有些麻烦。需要一些简洁的方法。     本文我们讨论矩阵向量求导链式法则,使用该法则很多时候可以帮我们快速求出导数结果。     本文的标量...

  在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中,我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候,求导的自变量和因变量直接有复杂的多层链式求导的关系,此时微分法使用起来也有些麻烦。需要一些简洁的方法。

    本文我们讨论矩阵向量求导链式法则,使用该法则很多时候可以帮我们快速求出导数结果。

    本文的标量对向量的求导,标量对矩阵的求导使用分母布局, 向量对向量的求导使用分子布局。如果遇到其他资料求导结果不同,请先确认布局是否一样。

1. 向量对向量求导的链式法则

    首先我们来看看向量对向量求导的链式法则。假设多个向量存在依赖关系,比如三个向量x→y→zx→y→z存在依赖关系,则我们有下面的链式求导法则:

∂z∂x=∂z∂y∂y∂x∂z∂x=∂z∂y∂y∂x

    该法则也可以推广到更多的向量依赖关系。但是要注意的是要求所有有依赖关系的变量都是向量,如果有一个YY是矩阵,,比如是x→Y→zx→Y→z, 则上式并不成立。

    从矩阵维度相容的角度也很容易理解上面的链式法则,假设x,y,zx,y,z分别是m,n.pm,n.p维向量,则求导结果∂z∂x∂z∂x是一个p×mp×m的雅克比矩阵,而右边∂z∂y∂z∂y是一个p×np×n的雅克比矩阵,∂y∂x∂y∂x是一个n×mn×m的矩阵,两个雅克比矩阵的乘积维度刚好是p×mp×m,和左边相容。

2. 标量对多个向量的链式求导法则

    在我们的机器学习算法中,最终要优化的一般是一个标量

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/97754594

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。