sklearn特征的提取(上)

举报
毛利 发表于 2021/07/15 09:35:59 2021/07/15
【摘要】 首先必须知道什么是特征工程 什么是特征工程 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础。 那么如何提...

首先必须知道什么是特征工程

什么是特征工程

特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础。

那么如何提取好的特征将是本文主要内容

我们将简要介绍一些常用的特征提取方法:

  • 字典加载特征:DictVectorizer
  • 文本特征提取:词频向量(CountVectorizer)
  • TF-IDF向量(TfidfVectorizer,TfidfTransformer) 特征哈希向量(HashingVectorizer)
  • 图像特征提取: 提取像素矩阵提取边缘和兴趣点

字典加载特征:DictVectorizer

python中的字典存储特征是一种常用的做法,其优点是容易理解。但是sklearn的输入特征必须是 numpyscipy数组。可以用DictVectorizer从字典中加载特征转换成numpy数组,并且对分类特征 会采用独热编码(one-hot)

字典特征提取器:
  • 将字典数据结构抽和向量化
  • 类别类型特征借助原型特征名称采用0 1 二值方式进行向量化
  • 数值类型特征保持不变
from sklearn.feature_extraction import D
  
 

    文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

    原文链接:maoli.blog.csdn.net/article/details/88652462

    【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
    • 点赞
    • 收藏
    • 关注作者

    评论(0

    0/1000
    抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。