《百面机器学习》第零问:什么是特征工程?什么是结构化数据?什么是非结构化数据?
1. 特征工程
- 特征工程师对原始数据进行一系列的工程处理,作为输入供算法和模型使用。
举例:想让机器识别这个图片是不是苹果,可以选择 形状,颜色分布,边等作为特征
- 从本质上讲,特征工程是一个表示和展现数据的过程。
- 实际中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解问题与预测模型之间的关系
1.1 特征工程的目的
-
去掉数据中的杂质
-
构造更高级的高效的特征来描述数据。
1.2 怎么做特征工程?
特征工程一般包括三个子模块:特征构建->特征提取->特征选择
1.2.1 特征构建
根据原始数据构建新的特征,需要找出一些具有物理意义的特征。
1.2.2 特征提取
自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义或核的特征。例如 Gabor、几何特征、纹理等。
1.2.2.1特征提取常用方法
PCA (Principal component analysis,主成分分析)
ICA (Independent component analysis,独立成分分析)
LDA (Linear Discriminant Analysis,线性判别分析)
1.2.3 特征选择
从特征集合中挑选一组最具统计意义的特征子集,把无关的特征删掉,从而达到降维的效果
1.2.3.1 特征选择常用方法
常用的方法:
filter 方法:Pearson相关系数,Gini-index(基尼指数),IG(信息增益)等
wrapper :有逐步回归(Stepwise regression 递归特征消除法)、向前选择(Forward selection)和向后选择(Backward selection)等
Embeded :Regularization(基于L1,L2惩罚项的特征选择法),或者使用决策树思想,Random Forest和Gradient boosting等
2. 结构化数据
结构化数据类型可以看做关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种基本类型,每一行数据表示一个样本的信息。
3. 非结构化数据
非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰地类别定义,并且每条数据的大小各不相同。
文章来源: kings.blog.csdn.net,作者:人工智能博士,版权归原作者所有,如需转载,请联系作者。
原文链接:kings.blog.csdn.net/article/details/95936154
- 点赞
- 收藏
- 关注作者
评论(0)