- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【PyTorch基础教程4】反向传播与计算图（学不会来打我啊）

野猪佩奇996 发表于 2022/01/22 23:36:08 2022/01/22

【摘要】学习总结（1）正向传递求loss，反向传播求loss对变量的梯度。求loss实际在构建计算图，每次运行完后计算图就释放了。（2）Tensor的Grad也是一个Tensor。更新权重w.data = ...

学习总结

（1）正向传递求loss，反向传播求loss对变量的梯度。求loss实际在构建计算图，每次运行完后计算图就释放了。
（2）Tensor的Grad也是一个Tensor。更新权重w.data = w.data - 0.01 * w.grad.data的0.01乘那坨其实是在建立计算图，而我们这里要乘0.01 * grad.data，这样是不会建立计算图的（并不希望修改权重w，后面还有求梯度）。
（3）下面的w.grad.item()是直接把w.grad的数值取出，变成一个标量（也是为了防止产生计算图）。总之，牢记权重更新过程中要使用这里的w.grad.data。

一、基础回顾

1.1 正向传递

1.2 反向传播

1.3 举栗子

现在以 $\cdot \omega$ 为例：

（1）正向传递

（2）反向传播

注意虽然这里的 $\frac{\partial L}{\partial x}=\frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial x}$ 不求也可以，但是在pytorch是会求出来的（因为如果是多层，则需要用到该中间层求得的的梯度）。

二、计算图

2.1 线性模型的计算图

练习：

三、代码实战

# -*- coding: utf-8 -*-
"""
Created on Sun Oct 17 19:39:32 2021

@author: 86493
"""
import torch
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = torch.Tensor([1.0])
w.requires_grad = True

# 向前传递
def forward(x):
    return x * w

# 这里使用SGD
def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y) ** 2

print("predict (before training)", 4,
      forward(4).item())

# 训练过程,SGD
for epoch in range(100):
    for x, y in zip(x_data, y_data):
        # 向前传播，计算loss
        l = loss(x, y)
        # 计算requires_grad为true的tensor的梯度
        l.backward()
        print('\tgrad:', x, y, w.grad.item())
        w.data = w.data - 0.01 * w.grad.data
        # 反向传播后grad会被重复计算，所以记得清零梯度
        w.grad.data.zero_()
        
    print("progress:", epoch, l.item())
    
print("predict (after training)", 4, 
      forward(4).item())   

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41

注意：
（1）loss实际在构建计算图，每次运行完后计算图就释放了。
（2）Tensor的Grad也是一个Tensor。更新权重w.data = w.data - 0.01 * w.grad.data的0.01乘那坨其实是在建立计算图，而我们这里要乘0.01 * grad.data，这样是不会建立计算图的（并不希望修改权重w，后面还有求梯度）。
（3）w.grad.item()是直接把w.grad的数值取出，变成一个标量（也是为了防止产生计算图）。总之，牢记权重更新过程中要使用data。

（4）如果不像上面计算一个样本的loss，想算所有样本的loss(cost)，然后就加上sum += l，注意此时sum是关于张量 $l$ 的一个计算图，又未对sum做backward操作，随着l越加越多会导致内存爆炸。
正确做法：sum += l.item()，别把损失直接加到sum里面。
Tensor在做加法运算时会构建计算图
（5）backward后的梯度一定要记得清零w.grad.data.zero()。

（6）训练过程：先计算loss损失值，然后backward反向传播，现在就有了梯度了。通过梯度下降更新参数：

四、作业

Reference

（1）PyTorch 深度学习实践第10讲，刘二系列
（2）b站视频：https://www.bilibili.com/video/BV1Y7411d7Ys?p=10
（3）官方文档：https://pytorch.org/docs/stable/_modules/torch/nn/modules/conv.html#Conv2d
（4）吴恩达网易云课程：https://study.163.com/my#/smarts
（5）刘洪普老师博客：https://liuii.github.io/
（6）某同学的笔记：http://biranda.top/archives/page/2/

文章来源: andyguo.blog.csdn.net，作者：山顶夕景，版权归原作者所有，如需转载，请联系作者。

原文链接：andyguo.blog.csdn.net/article/details/120814447

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入