《百面机器学习》第零问:什么是特征工程?什么是结构化数据?什么是非结构化数据?

举报
王博Kings 发表于 2020/12/29 23:12:00 2020/12/29
【摘要】 机器学习基本概念 1. 特征工程1.1 特征工程的目的1.2 怎么做特征工程?1.2.1 特征构建1.2.2 特征提取1.2.2.1特征提取常用方法 1.2.3 特征选择1.2.3.1 特征选择常用方法 2. 结构化数据3. 非结构化数据 1. 特征工程 特征工程师对原始数据进行一系列的工程处理,作为输入供算法和模型使用。 举例:想让机器识别...

1. 特征工程

  • 特征工程师对原始数据进行一系列的工程处理,作为输入供算法和模型使用。
    举例:想让机器识别这个图片是不是苹果,可以选择 形状,颜色分布,边等作为特征
    在这里插入图片描述
  • 从本质上讲,特征工程是一个表示和展现数据的过程。
  • 实际中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解问题与预测模型之间的关系

1.1 特征工程的目的

  • 去掉数据中的杂质

  • 构造更高级的高效的特征来描述数据。

1.2 怎么做特征工程?

特征工程一般包括三个子模块:特征构建->特征提取->特征选择

1.2.1 特征构建

根据原始数据构建新的特征,需要找出一些具有物理意义的特征。

1.2.2 特征提取

自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义或核的特征。例如 Gabor、几何特征、纹理等。

1.2.2.1特征提取常用方法

PCA (Principal component analysis,主成分分析)
ICA (Independent component analysis,独立成分分析)
LDA (Linear Discriminant Analysis,线性判别分析)

1.2.3 特征选择

从特征集合中挑选一组最具统计意义的特征子集,把无关的特征删掉,从而达到降维的效果

1.2.3.1 特征选择常用方法

常用的方法:

filter 方法:Pearson相关系数,Gini-index(基尼指数),IG(信息增益)等
wrapper :有逐步回归(Stepwise regression 递归特征消除法)、向前选择(Forward selection)和向后选择(Backward selection)等
Embeded :Regularization(基于L1,L2惩罚项的特征选择法),或者使用决策树思想,Random Forest和Gradient boosting等

2. 结构化数据

结构化数据类型可以看做关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种基本类型,每一行数据表示一个样本的信息。

3. 非结构化数据

非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰地类别定义,并且每条数据的大小各不相同。

文章来源: kings.blog.csdn.net,作者:人工智能博士,版权归原作者所有,如需转载,请联系作者。

原文链接:kings.blog.csdn.net/article/details/95936154

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。