华为云深度学习笔记2
第四章、正则化
1.过拟合
误差:训练误差:模型在训练集上的误差
泛化误差:模型在新样本上的误差
欠拟合:训练误差很大的现象
过拟合:训练误差小但是泛化误差大的现象,即在新样本上的误差比较大
机器学习目标:使模型能够更好地应用于新样本,称之为泛化能力或鲁棒性
模型容量:用于机器学习的训练样本,即模型的学习能力,越多越大;当模型容量小容易出现欠拟合,当模型容量过大高于任务所需会出现过拟合
产生过拟合原因:
数据噪声干扰过大,会使得预测模型严重偏离(线性预测为非线性)
样本训练太少,无法准确预测真实模型
模型复杂度过高
防止过度拟合方法:
减少特征维度
正则化:数据增强,参数范围惩罚,Dropout,提前终止
2.数据增加
数据增强:增加数据训练样本,通过足够多的样本能够不断修复自己,是防止过拟合最有效的方法
噪声训练:因为产生过拟合的最大原因是没有过大的抗噪声能力,那么添加随机噪声就可以进行噪声的训练减小过拟合
在输入层加入噪声:数据集增强
在隐藏层加入噪声:Dropout
在输出层加入噪声:标签平滑(分类任务,图像分类等)
3.L2与L1正则
参数范数惩罚:通过对目标函数J添加一个参数惩罚Ω(θ),进行限制模型学习的能力。
L2正则:
L1正则:
4.Dropout
是一类通用并且计算简洁的正则化方法,在训练过程中随机丢弃一部分输入,丢弃部分参数不会更新
Dropout作用:
取平均作用
减少神经元之间的过复杂关系(提高鲁棒性)
Dropout类似于性别在生物进化中的角色(减少灭绝,得到特征)
5.提前终止
通过对迭代次数截断来减少过拟合
在每一轮次结束后要检验验证集准确率,当准确率不在提高时,进行截断,停止训练
6.随机池化
池化意义:
特征不变性:使模型更关注包含一定自由度,能容忍特征微小位移。
特征降维:使后续操作计算量减小
一定程度减小过拟合
池化方式:
第五章、优化器
梯度下降:
全局梯度下降:
采用整个训练集数据进行计算梯度
缺点:一次更新对整个数据及计算梯度有较大影响,计算很慢
随机梯度下降:
SGD每次更新是对每个样本进行更新,没用冗余,速度快,可以增加新样本
缺点:更新更加频繁,会产生严重震荡,对噪声更加敏感
小批量梯度下降:
每次利用n个样本的小批量,降低参数更新的方差,利用高度优化的效率进行计算
缺点:没办法保证收敛性;对于非凸函数,避免陷入局部极小或鞍点等
动量优化器Momentum
保留物理惯性的特性,整体方向不变但是有部分相互抵消
常见优化器
Adam:(对低频作较大更新,对高频作较小更新)
如何选择优化器
- 点赞
- 收藏
- 关注作者
评论(0)