- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习：数据降维特征选择和主成分分析PCA

彭世瑜发表于 2021/08/14 00:13:41 2021/08/14

【摘要】数组维度数据维度：特征数量特征选择和主成分分析使用：特征选择特征较少时使用主成分分析特征有上百个 1、特征选择主要方法： Filter 过滤式（方差variance） Embedded 嵌入式（正则化，决策时） Wrapper 包裹式神经网络代码示例 from sklearn.feature_selection import Varianc...

数组维度
数据维度：特征数量

特征选择和主成分分析使用：

特征选择特征较少时使用
主成分分析特征有上百个

1、特征选择

主要方法：
Filter 过滤式（方差variance）
Embedded 嵌入式（正则化，决策时）
Wrapper 包裹式
神经网络

代码示例

from sklearn.feature_selection import VarianceThreshold

# 特征选择-删除低方差的特征
data = [ [0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]
]

var = VarianceThreshold(threshold=0.0)
result = var.fit_transform(data)
print(result)
"""
[[2 0]
 [1 4]
 [1 1]]
"""

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17

2、主成分分析PCA

PCA(principal Component Analysis)

二维表示一个立体物体

特征选择的原因
冗余：部分特征的相关度高，容易消耗计算资源
噪声：部分特征对预测结果有影响

本质：一种分析，简化数据集的技术
目的：使数据维数压缩，竟可能降低元数据的维数（复杂度），损失少量信息
作用：可以削减回归分析或者聚类分析中特征的数量
场景：特征数量达到上百的时候，考虑数据简化

代码示例

from sklearn.decomposition import PCA

data = [ [2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]
]

# n_components取小数：保留百分比，取整数：保留特征个数
pca = PCA(n_components=0.9)
result = pca.fit_transform(data)
print(result)
"""
[[-3.13587302e-16  3.82970843e+00]
 [-5.74456265e+00 -1.91485422e+00]
 [ 5.74456265e+00 -1.91485422e+00]]
"""

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/86437866

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

机器学习：数据降维特征选择和主成分分析PCA

1、特征选择

代码示例

2、主成分分析PCA

代码示例

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

机器学习：数据降维特征选择和主成分分析PCA

1、特征选择

代码示例

2、主成分分析PCA

代码示例

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品