《数据科学与分析:Python语言实现》 —3.6 特征选择
3.6 特征选择
机器学习是一个强大的工具,不仅可以用于计算机科学、数学和统计学领域,以帮助我们过滤和准备数据,还可以从中提取有价值的信息。因此,能够将有价值的关系和模式与任何随机的、混杂的关系分开是很重要的。在任何实际应用中,不可避免地,令人分心的噪声会与我们想要利用的信号混合在一起。
因此,未处理的数据可以被看作能够通过过滤以获得所需洞察力的原材料。然而,正如烹饪一样,成分的质量与配方中指定的步骤一样重要。考虑到这一点,我们需要能够思考可以包含在模型(配方)中的可用自变量或特征(成分)。
在某些情况下,使用未处理的原始数据可能是合适的。但是在许多情况下,最好创建新的功能,以合成在原始数据中分散的重要信号。这个过程称为特征选择,我们不仅要考虑现有的特征,还要考虑新特征的创建和提取,甚至消除一些变量。
仔细选择在建模过程中要使用的特征有助于理解模型结果。它对从机器学习算法的应用中获得的预测也有很大影响。创建新特征的常用方法是通过数学变换使变量适合特定算法的利用。例如,许多算法依赖具有线性关系的特征,并且找到使非线性特征在不同特征空间中表示为线性的变换是非常值得的。我们将在第4章和9.1节中看到一些这样的例子。
确实,预先知道我们应该做出的适当的转换和聚合本身就是一项艰巨的任务。在许多情况下,相似的数据集和类似应用的经验是非常宝贵的。尽管如此,如果你没有经验,也不是什么都做不了。幸运的是,还有一种通过机器学习本身来提取特征向量的常用方法。
在这种情况下,无监督学习可以提供一种方法,可以在数据中找到有用的聚类(参见5.1节),这可能为我们指出正确的方向。同样,降维(参见8.1节)可以帮助我们确定特征组合,解释数据集中显示的方差。后面的章节中将讨论这些类型的算法。
- 点赞
- 收藏
- 关注作者
评论(0)