- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【深度学习】嘿马深度学习笔记第6篇：神经网络与tf.keras,1.4 深层神经网络【附代码文档】

程序员一诺python 发表于 2025/08/11 14:48:18 2025/08/11

【摘要】 1.深度学习课程概述包括深度学习与机器学习区别、深度学习应用场景、深度学习框架介绍、项目演示、开发环境搭建（pycharm安装）。2. TensorFlow基础涵盖TF数据流图、TensorFlow实现加法运算、图与TensorBoard（图结构、图相关操作、默认图、创建图、OP）、张量（张量概念、张量的阶、张量数学运算）、变量OP（创建变量）、增加其他功能（命名空间、模型保存

教程全知识点简介：1.深度学习课程概述包括深度学习与机器学习区别、深度学习应用场景、深度学习框架介绍、项目演示、开发环境搭建（pycharm安装）。2. TensorFlow基础涵盖TF数据流图、TensorFlow实现加法运算、图与TensorBoard（图结构、图相关操作、默认图、创建图、OP）、张量（张量概念、张量的阶、张量数学运算）、变量OP（创建变量）、增加其他功能（命名空间、模型保存与加载、命令行参数使用）、逻辑回归案例。3. 神经网络基础包括playground使用、多个神经元效果演示、深层神经网络。4. 神经网络与tf.keras。5. 梯度下降算法改进涵盖指数加权平均、动量梯度下降法、RMSProp算法、Adam算法、TensorFlow Adam算法API、学习率衰减、标准化输入、神经网络调优、批标准化。6. 卷积神经网络包括CNN原理、CIFAR类别分类（API使用、步骤分析代码实现缩减版LeNet）、卷积神经网络学习特征可视化。7. 经典分类网络结构涵盖LeNet解析、AlexNet、卷积网络结构优化、Inception结构、pre_trained模型VGG预测（VGG模型使用、步骤代码）。8. CNN网络实战技巧。9. 迁移学习案例包括基于VGG的五种图片类别识别迁移学习（数据集迁移需求、思路步骤、训练时读取本地图片类别、特征图平均值输出替代全连接层）。10. 目标检测包括目标检测任务描述、目标定位实现思路、商品物体检测项目介绍、R-CNN（Overfeat模型、SPPNet）、Faster R-CNN（RPN原理）、YOLO（单元格grid cell、非最大抑制NMS、训练）、SSD。11. 商品检测数据集训练涵盖标注数据读取存储（xml读取本地文件存储pkl、解析结构、one_hot编码函数）、训练（案例训练结果、多GPU训练代码修改）、本地预测测试（预测代码）、模型导出（keras模型TensorFlow导出）。12. 模型部署包括Web与模型服务对接逻辑、Docker部署环境、TF Serving与Web开启服务（安装Tensorflow Serving、commodity模型服务运行）、TensorFlow Client对接模型服务、Web Server开启。

👉👉👉 https://gitee.com/yinuo112/AI/blob/master/深度学习/嘿马深度学习笔记/note.md

神经网络与tf.keras

1.4 深层神经网络

学习目标

目标
了解深层网络的前向传播与反向传播的过程
应用
无

为什么使用深层网络

对于人脸识别等应用，神经网络的第一层从原始图片中提取人脸的轮廓和边缘，每个神经元学习到不同边缘的信息；网络的第二层将第一层学得的边缘信息组合起来，形成人脸的一些局部的特征，例如眼睛、嘴巴等；后面的几层逐步将上一层的特征组合起来，形成人脸的模样。随着神经网络层数的增加，特征也从原来的边缘逐步扩展为人脸的整体，由整体到局部，由简单到复杂。层数越多，那么模型学习的效果也就越精确。

通过例子可以看到，随着神经网络的深度加深，模型能学习到更加复杂的问题，功能也更加强大。

1.4.1 深层神经网络表示

1.4.1.1 什么是深层网络？

使用浅层网络的时候很多分类等问题得不到很好的解决，所以需要深层的网络。

1.4.2 四层网络的前向传播与反向传播

在这里首先对每层的符号进行一个确定，我们设置L为第几层，n为每一层的个数，L=[L1,L2,L3,L4],n=[5,5,3,1]

1.4.2.1 前向传播

首先还是以单个样本来进行表示,每层经过线性计算和激活函数两步计算

z[1]=W[1]x+b[1],a[1]=g[1]z^{[1]} = W^{[1]}x+b^{[1]}, a^{[1]}=g^{[1]}(z^{[1]})z[1]=W[1]x+b[1],a[1]=g[1](z[1])xxxa[1]a^{[1]}a[1]

z[2]=W[2]a[1]+b[2],a[2]=g[2]z^{[2]} = W^{[2]}a^{[1]}+b^{[2]}, a^{[2]}=g^{[2]}(z^{[2]})z[2]=W[2]a[1]+b[2],a[2]=g[2](z[2])a[1]a^{[1]}a[1]a[2]a^{[2]}a[2]

z[3]=W[3]a[2]+b[3],a[3]=g[3]z^{[3]} = W^{[3]}a^{[2]}+b^{[3]},a^{[3]}=g^{[3]}(z^{[3]})z[3]=W[3]a[2]+b[3],a[3]=g[3](z[3])a[2]a^{[2]}a[2]a[3]a^{[3]}a[3]

z[4]=W[4]a[3]+b[4],a[4]=σ(z[4])z^{[4]} = W^{[4]}a^{[3]}+b^{[4]},a^{[4]}=\sigma(z^{[4]})z[4]=W[4]a[3]+b[4],a[4]=σ(z[4])a[3]a^{[3]}a[3]a[4]a^{[4]}a[4]

我们将上式简单的用通用公式表达出来，x=a[0]x = a^{[0]}x=a[0]

z[L]=W[L]a[L−1]+b[L],a[L]=g[L]z^{[L]} = W^{[L]}a^{[L-1]}+b^{[L]}, a^{[L]}=g^{[L]}(z^{[L]})z[L]=W[L]a[L−1]+b[L],a[L]=g[L](z[L])a[L−1]a^{[L-1]}a[L−1]a[L]a^{[L]}a[L]

m个样本的向量表示

Z[L]=W[L]A[L−1]+b[L]Z^{[L]} = W^{[L]}A^{[L-1]}+b^{[L]}Z[L]=W[L]A[L−1]+b[L]

A[L]=g[L]A^{[L]}=g^{[L]}(Z^{[L]})A[L]=g[L](Z[L])

输入a[L−1]a^{[L-1]}a[L−1]a[L]a^{[L]}a[L]

1.4.2.2 反向传播

因为涉及到的层数较多，所以我们通过一个图来表示反向的过程

反向传播的结果（理解）

单个样本的反向传播：

dZ[l]=dJda[l]da[l]dZ[l]=da[l]∗g[l]′(Z[l])dZ^{[l]}=\frac{dJ}{da^{[l]}}\frac{da^{[l]}}{dZ^{[l]}}=da^{[l]}*g^{[l]}{'}(Z^{[l]})dZ[l]=da[l]dJdZ[l]da[l]=da[l]∗g[l]′(Z[l])

dW[l]=dJdZ[l]dZ[l]dW[l]=dZ[l]⋅a[l−1]dW^{[l]}=\frac{dJ}{dZ^{[l]}}\frac{dZ^{[l]}}{dW^{[l]}}=dZ^{[l]}\cdot a^{[l-1]}dW[l]=dZ[l]dJdW[l]dZ[l]=dZ[l]⋅a[l−1]

db[l]=dJdZ[l]dZ[l]db[l]=dZ[l]db^{[l]}=\frac{dJ}{dZ^{[l]}}\frac{dZ^{[l]}}{db^{[l]}}=dZ^{[l]}db[l]=dZ[l]dJdb[l]dZ[l]=dZ[l]

da[l−1]=W[l]T⋅dZ[l]da^{[l-1]}=W^{[l]T}\cdot dZ^{[l]}da[l−1]=W[l]T⋅dZ[l]

多个样本的反向传播

dZ[l]=dA[l]∗g[l]′(Z[l])dZ^{[l]}=dA^{[l]}*g^{[l]}{'}(Z^{[l]})dZ[l]=dA[l]∗g[l]′(Z[l])

dW[l]=1mdZ[l]⋅A[l−1]TdW^{[l]}=\frac{1}{m}dZ^{[l]}\cdot {A^{[l-1]}}^{T}dW[l]=m1dZ[l]⋅A[l−1]T

db[l]=1mnp.sum(dZ[l],axis=1)db^{[l]}=\frac{1}{m}np.sum(dZ^{[l]},axis=1)db[l]=m1np.sum(dZ[l],axis=1)

dA[l]=W[l+1]T⋅dZ[l+1]dA^{[l]}=W^{[l+1]T}\cdot dZ^{[l+1]}dA[l]=W[l+1]T⋅dZ[l+1]

1.4.3 参数与超参数

1.4.3.1 参数

参数即是我们在过程中想要模型学习到的信息（模型自己能计算出来的），例如 W[l]W[l]，b[l]b[l]。而超参数（hyper parameters）即为控制参数的输出值的一些网络信息（需要人经验判断）。超参数的改变会导致最终得到的参数 W[l]，b[l] 的改变。

1.4.3.2 超参数

典型的超参数有：

学习速率：α
迭代次数：N
隐藏层的层数：L
每一层的神经元个数：n[1]，n[2]，...
激活函数 g(z) 的选择

当开发新应用时，预先很难准确知道超参数的最优值应该是什么。因此，通常需要尝试很多不同的值。应用深度学习领域是一个很大程度基于经验的过程。

1.4.3.3 参数初始化

为什么要随机初始化权重

如果在初始时将两个隐藏神经元的参数设置为相同的大小，那么两个隐藏神经元对输出单元的影响也是相同的，通过反向梯度下降去进行计算的时候，会得到同样的梯度大小，所以在经过多次迭代后，两个隐藏层单位仍然是对称的。无论设置多少个隐藏单元，其最终的影响都是相同的，那么多个隐藏神经元就没有了意义。

在初始化的时候，W 参数要进行随机初始化，不可以设置为 0。b 因为不存在上述问题，可以设置为 0。

以 2 个输入，2 个隐藏神经元为例：

W = np.random.rand(2,2)* 0.01
b = np.zeros((2,1))

初始化权重的值选择

这里将 W 的值乘以 0.01（或者其他的常数值）的原因是为了使得权重 W 初始化为较小的值，这是因为使用 sigmoid 函数或者 tanh 函数作为激活函数时，W 比较小，则 Z=WX+b 所得的值趋近于 0，梯度较大，能够提高算法的更新速度。而如果 W 设置的太大的话，得到的梯度较小，训练过程因此会变得很慢。

ReLU 和 Leaky ReLU 作为激活函数时不存在这种问题，因为在大于 0 的时候，梯度均为 1。

总结

每日作业

神经网络与tf.keras

卷积神经网络

3.1 卷积神经网络(CNN)原理

学习目标

目标
了解卷积神经网络的构成
记忆卷积的原理以及计算过程
了解池化的作用以及计算过程
应用
无

为什么需要卷积神经网络

在计算机视觉领域，通常要做的就是指用机器程序替代人眼对目标图像进行识别等。那么神经网络也好还是卷积神经网络其实都是上个世纪就有的算法，只是近些年来电脑的计算能力已非当年的那种计算水平，同时现在的训练数据很多，于是神经网络的相关算法又重新流行起来，因此卷积神经网络也一样流行。

1974年，Paul Werbos提出了误差反向传导来训练人工神经网络，使得训练多层神经网络成为可能。
1979年，Kunihiko Fukushima（福岛邦彦），提出了Neocognitron，卷积、池化的概念基本形成。
1986年，Geoffrey Hinton与人合著了一篇论文：Learning representations by back-propagation errors。
1989年，Yann LeCun提出了一种用反向传导进行更新的卷积神经网络，称为LeNet。
1998年，Yann LeCun改进了原来的卷积网络，LeNet-5。

原因之一：图像特征数量对神经网络效果压力

假设下图是一图片大小为28 * 28 的黑白图片时候，每一个像素点只有一个值（单通道）。那么总的数值个数为 784个特征。

那现在这张图片是彩色的，那么彩色图片由RGB三通道组成，也就意味着总的数值有28 28 3 = 2352个值。

从上面我们得到一张图片的输入是2352个特征值，即神经网路当中与若干个神经元连接，假设第一个隐层是10个神经元，那么也就是23520个权重参数。

如果图片再大一些呢，假设图片为1000 1000 3，那么总共有3百万数值，同样接入10个神经元，那么就是3千万个权重参数。这样的参数大小，神经网络参数更新需要大量的计算不说，也很难达到更好的效果，大家就不倾向于使用多层神经网络了。

所以就有了卷积神经网络的流行，那么卷积神经网络为什么大家会选择它。那么先来介绍感受野以及边缘检测的概念。

注：另有卷积网络感受野的概念，也是为什么使用卷积的原因

3.1.1 卷积神经网络的组成

[reportlab 文档]

定义
卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷积神经网络在图像等方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他浅层或深度神经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。

我们来看一下卷积网络的整体结构什么样子。

其中包含了几个主要结构

[threading 文档]

卷积层（Convolutions）
池化层（Subsampling）
全连接层（Full connection）
激活函数

3.1.2 卷积层

目的
卷积运算的目的是提取输入的不同特征，某些卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。
参数：
size:卷积核/过滤器大小，选择有1 1， 3 3， 5 * 5（为什么是奇数个）
padding：零填充，Valid 与Same
stride:步长，*

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【深度学习】嘿马深度学习笔记第6篇：神经网络与tf.keras,1.4 深层神经网络【附代码文档】

神经网络与tf.keras

1.4 深层神经网络