- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《统计学习方法（第2版）》李航第16章主成分分析 PCA 思维导图笔记及课后习题答案（步骤详细）PCA 矩阵奇异值

ML--小小白发表于 2023/06/16 16:02:37 2023/06/16

【摘要】 16.1对以下样本数据进行主成分分析：X=[233457245568]X = \left[\begin{array}{llllll}2 & 3 & 3 & 4 & 5 & 7 \\ 2 & 4 & 5 & 5 & 6 & 8\end{array}\right]X=[223435455678]由于手解数据不是那么“友好”所以直接用代码求解：import numpy as npX ...

16.1

对以下样本数据进行主成分分析：

$X = \left[\begin{array}{llllll}2 & 3 & 3 & 4 & 5 & 7 \\ 2 & 4 & 5 & 5 & 6 & 8\end{array}\right]$

由于手解数据不是那么“友好”所以直接用代码求解：

import numpy as np

X = np.array([[2, 3, 3, 4, 5, 7],
              [2, 4, 5, 5, 6, 8]], dtype='float')

def normalize_data(data_array):
    m, n = data_array.shape
    for i in range(m):
        data_array[i] = data_array[i] - data_array[i].mean()
        data_array[i] = data_array[i] / np.sqrt(data_array[i].var())
    return data_array

X = normalize_data(X)

# 利用奇异值分解进行PCA
X_prime = X.T / np.sqrt(X.shape[1] - 1)
U, Sigma, VT = np.linalg.svd(X_prime)
print(f'主成分方差贡献相对大小/主成分方差为：{Sigma}')
print(f'主成分所在的轴向/主成分投影矢量为：{[x for x in VT]}')
# 计算主成分与各原变量的相关系数/因子负荷
factor_loading = np.zeros((VT.shape[0], VT.shape[1]))
for j in range(factor_loading.shape[0]):
    for i in range(factor_loading.shape[1]):
        factor_loading[j, i] = Sigma[j] * VT[j, i]
print(f'主成分与各原变量的相关系数/因子负荷：\n{factor_loading}')
# 计算主成分矢量对于各样本的方差贡献率
contribution_2samples = np.zeros(VT.shape[1])
for i in range(len(contribution_2samples)):
    contribution_2samples[i] = (factor_loading[:, i] ** 2).sum()
print(f'主成分矢量对于各样本的方差贡献率：\n{contribution_2samples}')
# 计算各个样本的主成分值
principle_conmponents = np.zeros((VT.shape[0], X.shape[1]))
for i in range(X.shape[1]):
    principle_conmponents[:, i] = VT @ X[:, i]
print(f'PCA matrix:\n{principle_conmponents}')

主成分方差贡献相对大小/主成分方差为：[1.52983485 0.24414203]
主成分所在的轴向/主成分投影矢量为：[array([0.70710678, 0.70710678]), array([ 0.70710678, -0.70710678])]
主成分与各原变量的相关系数/因子负荷：
[[ 1.0817566   1.0817566 ]
 [ 0.17263449 -0.17263449]]
主成分矢量对于各样本的方差贡献率：
[1.2 1.2]
PCA matrix:
[[-2.02792041 -0.82031104 -0.4330127   0.          0.82031104  2.46093311]
 [ 0.2958696  -0.04571437 -0.4330127   0.          0.04571437  0.1371431 ]]

分析:
首先从主成分方差可以看出，第一个主成分远大于第二个，所以数据主要分布在第一个轴上（贡献率 $\frac{1.52983485}{0.24414203 + 1.52983485}= 86.2\%$ ），或者说其实数据本身更接近一个一维分布；

从主成分投影矢量可以看出，第一个轴其实就是二维坐标系中，与原来的 $xy$ 轴呈45度的， $x=y$ 直线的方向，第二个就是正交的，在原来 $xy$ 坐标系里 $x=-y$ 的方向。这个特点其实从原本的数据中是能看出来的，数据确实主要分布在 $x=y$ 直线的附近；从SVD分析的角度，可知，多个样本主要贡献了/对应了两种模式，对于最重要的第一种模式，其对原本的两个特征贡献相同，说明这种模式贡献到了原两个特征的平分处（角平分线），也反映了数据主要方差集中在这个方向，对于第二种模式，贡献也是相同的，正负反映了其对应的贡献方向（原基组下为 $x=-y$ ）

从相关系数可以看出，第一个主成分（投影到 $x=y$ 直线上的分量）贡献最大，且确实对原本的变量贡献程度相等，第二个主成分是投影到 $x=-y$ 直线上的数据值，相关程度也相等，正负相关，说明沿着这个主成分轴方向x值（原第一变量）变大，y值（原第二变量）变小，确实也如此；

从主成分矢量对于样本方差贡献率可知，因为没有截断，所以是完全贡献，超过1是因为这里是样本PCA，不是总体/布居PCA；

从投影主成分轴之后的PCA matrix可以看出，其基本都落在新的第一主成分轴上（因为第二主成分都接近0），也就是原变量标准基下的 $x=y$ 轴。

16.2

证明样本协方差矩阵 $S$ 是总体协方差矩阵 $\Sigma$ 的无偏估计。

证明：

若 $x_{1}, x_{2}, \cdots, x_{n}$ 来自独立同分布 $X$ ，其分布满足： $E(X)=\mu$ ; $\operatorname{Cov}(x)=E\left[(X-\mu)(X-\mu)^{T}\right]=\Sigma$ 。n个x为取出的样本，则样本均值为：

$\bar{x}=\frac{1}{n}\left(x_{1}+x_{2}+\cdots+x_{n}\right)$

则样本均值的期望为：

$\begin{aligned} E(\bar{x}) &=E\left(\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}\right) \\ &=\frac{1}{n}\left(E\left(x_{1}\right)+E\left(x_{2}\right)+\cdots+E\left(x_{n}\right)\right) \\ &=\frac{1}{n}(n \times \mu) =\mu \end{aligned}$

其中第二个等号是因为它们都来自相同分布，因此期望都相同。
样本均值的协方差为：

$\begin{aligned} \operatorname{Cov}(\bar{x}) &=\operatorname{Cov}(\bar{x}, \bar{x}) \\ &=\operatorname{Cov}\left(\sum_{i=1}^{n} \frac{1}{n} x_{i}, \sum_{j=1}^{n} \frac{1}{n} x_{j}\right) \\ &=\sum_{i=1}^{n} \sum_{j=1}^{n} \operatorname{Cov}\left(\frac{1}{n} x_{i}, \frac{1}{n} x_{j}\right) \end{aligned}$

最后一个等于号是因为各个样本都是独立同分布（iid），所以互不相关，所以求和号可以提出来。且因为互不相关，因此对于 $i \neq j$ :

$\operatorname{Cov}\left(\frac{1}{n} x_{i}, \frac{1}{n} x_{j}\right)=\frac{1}{n^{2}} \operatorname{Cov}\left(x_{i}, x_{j}\right)=0$

从而可以去掉一个求和号：

$\begin{aligned} \operatorname{Cov}(\bar{x}) &=\sum_{i=1}^{n} \sum_{j=1}^{n} \operatorname{Cov}\left(\frac{1}{n} x_{i}, \frac{1}{n} x_{j}\right) \\ &=\sum_{i=1}^{n} \operatorname{Cov}\left(\frac{1}{n} x_{i}, \frac{1}{n} x_{i}\right) \\ &=\sum_{i=1}^{n} \frac{1}{n^{2}} \operatorname{Cov}\left(x_{i}, x_{i}\right) =\sum_{i=1}^{n} \frac{1}{n^{2}} \operatorname{Cov}\left(x_{i}\right) =\sum_{i=1}^{n} \frac{1}{n^{2}} \operatorname{Cov}\left(X\right) \\ &=n \times \frac{1}{n^{2}} \Sigma =\frac{1}{n} \Sigma \end{aligned}$

其中倒数第二行最后一个等号是因为它们都来自相同分布，因此协方差都相同。
令$$
A=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)^{T}

$则：$

\begin{aligned} E(A) &=E\left[\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)^{T}\right] \ &=E\left{\sum_{i=1}^{n}\left[\left(x_{i}-\mu\right)-(\bar{x}-\mu)\right]\left[\left(x_{i}-\mu\right)-(\bar{x}-\mu)\right]^{T}\right} \ &=E\left{\sum_{i=1}^{n}\left[\left(x_{i}-\mu\right)\left(x_{i}-\mu\right)^{T}+\bar{x} \bar{x}^{T}-x_{i} \bar{x}^{T}+x_{i} \mu^{T}-\bar{x} x_{i}^{T}+\mu x_{i}^{T}-\mu \mu^{T}\right]\right} \ &=\sum_{i=1}^{n} E\left[\left(x_{i}-\mu\right)\left(x_{i}-\mu\right)^{T}\right]+E\left[n \bar{x} \bar{x}^{T}-\left(\sum_{i=1}^{n} x_{i}\right) \bar{x}^{T}+\left(\sum_{i=1}^{n} x_{i}\right) \mu^{T}-\bar{x}\left(\sum_{i=1}^{n} x_{i}^{T}\right)+\mu\left(\sum_{i=1}^{n} x_{i}^{T}\right)-n \mu \mu^{T}\right] \ &=\sum_{i=1}^{n} E\left[\left(x_{i}-\mu\right)\left(x_{i}-\mu\right)^{T}\right]+E\left(n \bar{x} \bar{x}^{T}-n \bar{x} \bar{x}^{T}+n \bar{x} \mu^{T}-n \bar{x} \bar{x}^{T}+n \mu \bar{x}^{T}-n \mu \mu^{T}\right) \ &=\sum_{i=1}^{n} E\left[\left(x_{i}-\mu\right)\left(x_{i}-\mu\right)^{T}\right]-n E\left(\bar{x} \bar{x}^{T}-\bar{x} \mu^{T}-\mu \bar{x}^{T}+\mu \mu^{T}\right) \ &=\sum_{i=1}^{n} E\left[\left(x_{i}-E\left(x_{i}\right)\right)\left(x_{i}-E\left(x_{i}\right)\right)^{T}\right]-n \times E\left[(\bar{x}-\mu)(\bar{x}-\mu)^{T}\right] \ &=\sum_{i=1}^{n} \operatorname{Cov}\left(x_{i}\right)-n \times E\left[(\bar{x}-\mu)(\bar{x}-\mu)^{T}\right] \ &=n \times \Sigma-n \times E\left[(\bar{x}-\mu)(\bar{x}-\mu)^{T}\right] \ &=n \times \Sigma-n \times E\left[(\bar{x}-E(\bar{x}))(\bar{x}-E(\bar{x}))^{T}\right] \ &=n \times \Sigma-n \times \operatorname{Cov}(\bar{x}) \ &=n \times \Sigma-n \times \frac{1}{n} \Sigma \ &=(n-1) \Sigma \end{aligned}

而样本协方差$S$与$A$关系为：

\begin{aligned} S &=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)^{T} \ &= \frac{1}{n-1} A \end{aligned}

$因此，样本协协方差的期望为：$

\begin{aligned} E(S) &= \frac{1}{n-1} E(A) \ &= \frac{1}{n-1} (n-1) \Sigma = \Sigma \end{aligned}

# 16.3 设X维数据规范化样本矩阵，则主成分分析等价于求解一下最优化问题：

\begin{array}{c}\min {L}|X-L|{F} \ \text { s.t. } \quad \operatorname{rank}(L) \leq k\end{array}

这里$F$是弗罗贝尼乌斯范数，$k$为主成分甘薯。试问为什么？首先PCA的求解完全可以用SVD方法进行，只不过对于原来的矩阵进行变形，但是：

\min {L}\left|\frac{X^{\prime}}{\sqrt{n-1}}-L\right|{F}

$与这个优化问题完全等价，剩下的就是为啥PCA或者SVD与求解这个最优化问题等价，而这个等价性，第二版书的`第287页`，`定理15.3`已经给出了阐述，并给出了证明，直接参阅即可。$

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《统计学习方法（第2版）》李航第16章主成分分析 PCA 思维导图笔记及课后习题答案（步骤详细）PCA 矩阵奇异值

16.1

16.2

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《统计学习方法（第2版）》李航 第16章 主成分分析 PCA 思维导图笔记 及 课后习题答案（步骤详细）PCA 矩阵奇异值

16.1

16.2

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《统计学习方法（第2版）》李航第16章主成分分析 PCA 思维导图笔记及课后习题答案（步骤详细）PCA 矩阵奇异值