正则项不影响线性回归损失函数的凸性

举报
OvAvO 发表于 2021/11/16 14:26:42 2021/11/16
【摘要】 正则项不影响线性回归损失函数的凸性 2021-09-10Question: 加上正则项以后函数还是凸的吗? 梯度下降还适用吗?还是适用的, 证明如下 首先, 如何证明一个函数为凸函数?如果fff是二阶可微的,那么如果fff的定义域是凸集,并且∀x∈dom(f),∇2f(x)⩾0\forall x\in dom(f), \nabla^2 f(x)\geqslant0∀x∈dom(f),∇2f...

正则项不影响线性回归损失函数的凸性

2021-09-10
  • Question: 加上正则项以后函数还是凸的吗? 梯度下降还适用吗?
  • 还是适用的, 证明如下

首先, 如何证明一个函数为凸函数?

如果 f f 是二阶可微的,那么如果 f f 的定义域是凸集,并且 x d o m ( f ) , 2 f ( x ) 0 \forall x\in dom(f), \nabla^2 f(x)\geqslant0 ,那么 f f 就是一个凸函数.[^1]

  • 严格凸函数则要求二阶导数恒大于零
  • d o m ( f ) dom(f) 意指函数 f f 的定义域(Domian)

我们首先证明没有正则项的 J ( θ ) J(\theta) 是凸的

θ j J ( θ ) = 1 2 m i = 1 m θ j ( h θ ( x ) y ) 2 = 1 2 m i = 1 m 2 ( h θ ( x ) y ) θ j ( h θ ( x ) y ) = 1 m i = 1 m ( h θ ( x ) y ) x j \begin{aligned} \frac{\partial}{\partial \theta_{j}} J(\theta) &=\frac{1}{2 m} \sum_{i=1}^{m} \frac{\partial}{\partial \theta_{j}} \left(h_{\theta}(x)-y\right)^{2} \\ &=\frac{1}{2 m} \sum_{i=1}^{m} 2 \left(h_{\theta}(x)-y\right) \cdot \frac{\partial}{\partial \theta_{j}}\left(h_{\theta}(x)-y\right) \\ &=\frac{1}{ m} \sum_{i=1}^{m} \left(h_{\theta}(x)-y\right) x_j \\ \end{aligned}

2 θ j 2 J ( θ ) = θ j ( θ j J ( θ ) ) = 1 m i = 1 m θ j ( h θ ( x ) y ) x j = 1 m i = 1 m x j 2 \begin{aligned} \frac{\partial^2}{\partial \theta_{j}^2} J(\theta) &=\frac{\partial}{\partial \theta_{j}}\left(\frac{\partial}{\partial \theta_{j}} J(\theta)\right) \\ &=\frac{1}{ m} \sum_{i=1}^{m}\frac{\partial}{\partial \theta_{j}} \left(h_{\theta}(x)-y\right) x_j \\ &=\frac{1}{ m} \sum_{i=1}^{m}x_j^2 \\ \end{aligned}

显然是凸的.

然后加上正则项

θ j J ( θ ) = 1 2 m [ i = 1 m θ j ( h θ ( x ) y ) 2 + λ θ j i = 1 n θ i 2 ] = 1 2 m [ i = 1 m 2 ( h θ ( x ) y ) x j + 2 λ θ j ] = λ θ j + 1 m i = 1 m ( h θ ( x ) y ) x j \begin{aligned} \frac{\partial}{\partial \theta_{j}} J(\theta) &=\frac{1}{2 m} \left[\sum_{i=1}^{m} \frac{\partial}{\partial \theta_{j}} \left(h_{\theta}(x)-y\right)^{2} +\lambda \frac{\partial}{\partial \theta_{j}} \sum_{i=1}^{n} \theta_{i}^{2}\right]\\ &=\frac{1}{2 m}\left[ \sum_{i=1}^{m} 2 \left(h_{\theta}(x)-y\right) x_j+2\lambda\theta_{j}\right]\\ &=\lambda\theta_{j}+\frac{1}{ m} \sum_{i=1}^{m} \left(h_{\theta}(x)-y\right) x_j \\ \end{aligned}

2 θ j 2 J ( θ ) = θ j ( θ j J ( θ ) ) = θ j ( λ θ j + 1 m i = 1 m ( h θ ( x ) y ) x j ) = λ + 1 m i = 1 m x j 2 \begin{aligned} \frac{\partial^2}{\partial \theta_{j}^2} J(\theta) &=\frac{\partial}{\partial \theta_{j}}\left(\frac{\partial}{\partial \theta_{j}} J(\theta)\right) \\ &=\frac{\partial}{\partial \theta_{j}}\left(\lambda\theta_{j}+\frac{1}{ m} \sum_{i=1}^{m} \left(h_{\theta}(x)-y\right) x_j\right) \\ &=\lambda+\frac1{m} \sum_{i=1}^m x_j^2 \end{aligned}

当然在 λ > 0 \lambda>0 的时候上式恒大于零, 根据上面的定理, 损失函数一定是凸函数, 证毕.

[^1]:更详细的推导详见知乎文章: https://zhuanlan.zhihu.com/p/210252556

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。