【PyTorch基础教程4】反向传播与计算图(学不会来打我啊)

举报
野猪佩奇996 发表于 2022/01/22 23:36:08 2022/01/22
【摘要】 学习总结 (1)正向传递求loss,反向传播求loss对变量的梯度。求loss实际在构建计算图,每次运行完后计算图就释放了。 (2)Tensor的Grad也是一个Tensor。更新权重w.data = ...

学习总结

(1)正向传递求loss,反向传播求loss对变量的梯度。求loss实际在构建计算图,每次运行完后计算图就释放了。
(2)Tensor的Grad也是一个Tensor。更新权重w.data = w.data - 0.01 * w.grad.data的0.01乘那坨其实是在建立计算图,而我们这里要乘0.01 * grad.data,这样是不会建立计算图的(并不希望修改权重w,后面还有求梯度)。
(3)下面的w.grad.item()是直接把w.grad的数值取出,变成一个标量(也是为了防止产生计算图)。总之,牢记权重更新过程中要使用这里的w.grad.data

一、基础回顾

1.1 正向传递

在这里插入图片描述

1.2 反向传播

在这里插入图片描述

1.3 举栗子

现在以 f = x ⋅ ω f=x \cdot \omega f=xω 为例:

(1)正向传递

在这里插入图片描述

(2)反向传播

在这里插入图片描述
注意虽然这里的 ∂ L ∂ x = ∂ L ∂ z ⋅ ∂ z ∂ x \frac{\partial L}{\partial x}=\frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial x} xL=zLxz不求也可以,但是在pytorch是会求出来的(因为如果是多层,则需要用到该中间层求得的的梯度)。

二、计算图

2.1 线性模型的计算图

在这里插入图片描述
练习:
在这里插入图片描述

三、代码实战

# -*- coding: utf-8 -*-
"""
Created on Sun Oct 17 19:39:32 2021

@author: 86493
"""
import torch
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = torch.Tensor([1.0])
w.requires_grad = True

# 向前传递
def forward(x):
    return x * w

# 这里使用SGD
def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y) ** 2

print("predict (before training)", 4,
      forward(4).item())

# 训练过程,SGD
for epoch in range(100):
    for x, y in zip(x_data, y_data):
        # 向前传播,计算loss
        l = loss(x, y)
        # 计算requires_grad为true的tensor的梯度
        l.backward()
        print('\tgrad:', x, y, w.grad.item())
        w.data = w.data - 0.01 * w.grad.data
        # 反向传播后grad会被重复计算,所以记得清零梯度
        w.grad.data.zero_()
        
    print("progress:", epoch, l.item())
    
print("predict (after training)", 4, 
      forward(4).item())   

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41

注意:
(1)loss实际在构建计算图,每次运行完后计算图就释放了。
(2)Tensor的Grad也是一个Tensor。更新权重w.data = w.data - 0.01 * w.grad.data的0.01乘那坨其实是在建立计算图,而我们这里要乘0.01 * grad.data,这样是不会建立计算图的(并不希望修改权重w,后面还有求梯度)。
(3)w.grad.item()是直接把w.grad的数值取出,变成一个标量(也是为了防止产生计算图)。总之,牢记权重更新过程中要使用data
在这里插入图片描述
(4)如果不像上面计算一个样本的loss,想算所有样本的loss(cost),然后就加上sum += l,注意此时sum是关于张量 l l l 的一个计算图,又未对sumbackward操作,随着l越加越多会导致内存爆炸。
正确做法:sum += l.item(),别把损失直接加到sum里面。
Tensor在做加法运算时会构建计算图
(5)backward后的梯度一定要记得清零w.grad.data.zero()
在这里插入图片描述
(6)训练过程:先计算loss损失值,然后backward反向传播,现在就有了梯度了。通过梯度下降更新参数:
在这里插入图片描述

四、作业

在这里插入图片描述



  
 
  • 1

Reference

(1)PyTorch 深度学习实践 第10讲,刘二系列
(2)b站视频:https://www.bilibili.com/video/BV1Y7411d7Ys?p=10
(3)官方文档:https://pytorch.org/docs/stable/_modules/torch/nn/modules/conv.html#Conv2d
(4)吴恩达网易云课程:https://study.163.com/my#/smarts
(5)刘洪普老师博客:https://liuii.github.io/
(6)某同学的笔记:http://biranda.top/archives/page/2/

文章来源: andyguo.blog.csdn.net,作者:山顶夕景,版权归原作者所有,如需转载,请联系作者。

原文链接:andyguo.blog.csdn.net/article/details/120814447

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。