- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Caffe Softmax 层的实现原理【细节补充】

ShaderJoy 发表于 2022/01/01 00:00:42 2022/01/01

【摘要】本文是看了知乎的这篇文章以后觉得作者写的很好，但是有些细节讲解得不够详细，回复里面大家也多有疑问，特加以补充：为了对原作者表示尊重和感谢，先注明原作出处：作者：John Wang 链接：https://www.zhihu.com/question/28927103/answer/78810153 作者原文和我的补充 =...

本文是看了知乎的这篇文章以后觉得作者写的很好，但是有些细节讲解得不够详细，回复里面大家也多有疑问，特加以补充：

为了对原作者表示尊重和感谢，先注明原作出处：

作者：John Wang

链接：https://www.zhihu.com/question/28927103/answer/78810153

作者原文和我的补充

====================================

设 z 是 softmax loss 层的输入，f(z)是 softmax 的输出，即

$f(z_k)=frac{e^{z_k}}{sum_j e^{z_j}}$
y 是输入样本 z 对应的类别，y=0,1,...,N
对于 z ，其损失函数定义为

展开上式：
$l(y,z)=logsum_j e^{z_j}-z_y$
对上式求导，有
$frac{partial l(y,z)}{partial z}=frac{e^{z_y}}{sum_j e^{z_j}}-1=f(z_y)-1$
梯度下降方向即为
$-frac{partial l(y,z)}{partial z}=1-f(z_y)$
====================================

增加关于 softmax 层的反向传播说明
设 softmax 的输出为 a ，输入为 z ，损失函数为 l
则 $a_i=frac{e^{z_i}}{sum_j e^{z_j}}$
$frac{partial l}{partial z}=frac{partial l}{partial a}frac{partial a}{partial z}$
其中
$frac{partial l}{partial a}$ 在 caffe 中是 top_diff，a 为 caffe 中得 top_data，需要计算的是 $frac{partial a}{partial z}$
$frac{partial a_i}{partial z_k}=-a_i*a_k$ if i!=k
$frac{partial a_i}{partial z_k}=a_k-a_k*a_k$ if i==k

【我的补充】

----------------------------------------------------------------

当 i!=k 时，

当 i==k 时，

----------------------------------------------------------------
于是
$frac{partial l}{partial z_k}=frac{partial l}{partial a}frac{partial a}{partial z_k}=-(frac{partial l}{partial a}bullet a)a_k+frac{partial l}{partial a_k}a_k$

【我的补充】

----------------------------------------------------------------

把负号提出去，改为点乘，即得到上式。注意，这里的 n 表示 channels，这里的 k 和 caffe 源码中的 k 含义不同。

----------------------------------------------------------------

整理一下得到
${-[(frac{partial l}{partial a}bullet a)]_n+frac{partial l}{partial a_k}}.times a$
其中 $[(frac{partial l}{partial a}bullet a)]_n$ 表示将标量扩展为 n 维向量,表示向量按元素相乘

【我的补充】

----------------------------------------------------------------

这边作者讲解得有误，因为对照代码可以发现，点乘后其实得到的是 1*inner_num 大小的向量，所以为了对应通道相减，需要将其扩展为 channels*inner_num 的矩阵，而不是 n 维向量。

最后矩阵再按元素进行相乘。

对照 caffe 源码


  
   
    
     
    
    
      
     
    
   
    
     
    
    
       // top_diff : l 对 a 向量求偏导
     
    
   
    
     
    
    
       // top_data ：a 向量
     
    
   
    
     
    
    
       // 将 top_diff 拷贝到 bottom_diff
     
    
   
    
     
    
    
       // dim = channels * inner_num_
     
    
   
    
     
    
    
       // inner_num_ = height * width
     
    
   
    
     
    
    
       caffe_copy(top[0]->count(), top_diff, bottom_diff);
     
    
   
    
     
    
    
       // 遍历一个 batch 中的样本
     
    
   
    
     
    
    
       for (int i = 0; i < outer_num_; ++i) {
     
    
   
    
     
    
    
         // compute dot(top_diff, top_data) and subtract them from the bottom diff
     
    
   
    
     
    
    
         // 此处计算两个向量的点积，注意 top_diff 已经拷贝到 bottom_diff 当中
     
    
   
    
     
    
    
         // 步长为 inner_num_（跨通道）构造一个长度为 channels （类别个数）的向量，进行点乘
     
    
   
    
     
    
    
         for (int k = 0; k < inner_num_; ++k) {
     
    
   
    
     
    
    
     
            scale_data[k] = caffe_cpu_strided_dot<Dtype>(channels,
     
    
   
    
     
    
    
     
                bottom_diff + i * dim + k, inner_num_,
     
    
   
    
     
    
    
     
                top_data + i * dim + k, inner_num_);
     
    
   
    
     
    
    
     
          }
     
    
   
    
     
    
    
         // subtraction
     
    
   
    
     
    
    
         // 此处计算大括号内的减法（即负号）
     
    
   
    
     
    
    
         // 将 scale_data 扩展为 channels 个通道（多少个类别），再和 bottom_diff 对应的通道相减
     
    
   
    
     
    
    
         caffe_cpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, channels, inner_num_, 1,
     
    
   
    
     
    
    
             -1., sum_multiplier_.cpu_data(), scale_data, 1., bottom_diff + i * dim);
     
    
   
    
     
    
    
     
        }
     
    
   
    
     
    
    
       // elementwise multiplication
     
    
   
    
     
    
    
       // 元素级的乘法
     
    
   
    
     
    
    
       // 此处计算大括号外和 a 向量的乘法
     
    
   
    
     
    
    
       caffe_mul(top[0]->count(), bottom_diff, top_data, bottom_diff)

文章来源: panda1234lee.blog.csdn.net，作者：panda1234lee，版权归原作者所有，如需转载，请联系作者。

原文链接：panda1234lee.blog.csdn.net/article/details/82459595

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Caffe Softmax 层的实现原理【细节补充】

作者原文和我的补充

对照 caffe 源码

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Caffe Softmax 层的实现原理【细节补充】

作者原文和我的补充

对照 caffe 源码

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品