sklearn特征的提取(上)
【摘要】 首先必须知道什么是特征工程
什么是特征工程
特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础。
那么如何提...
首先必须知道什么是特征工程
什么是特征工程
特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础。
那么如何提取好的特征
将是本文主要内容
我们将简要介绍一些常用的特征提取方法:
- 字典加载特征:DictVectorizer
- 文本特征提取:词频向量(CountVectorizer)
- TF-IDF向量(TfidfVectorizer,TfidfTransformer) 特征哈希向量(HashingVectorizer)
- 图像特征提取: 提取像素矩阵提取边缘和兴趣点
字典加载特征:DictVectorizer
用python
中的字典存储特征是一种常用的做法,其优点是容易理解。但是sklearn
的输入特征必须是 numpy
或scipy
数组。可以用DictVectorizer
从字典中加载特征转换成numpy数组,并且对分类特征 会采用独热编码(one-hot)
。
字典特征提取器:
- 将字典数据结构抽和向量化
- 类别类型特征借助原型特征名称采用0 1 二值方式进行向量化
- 数值类型特征保持不变
from sklearn.feature_extraction import D
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/88652462
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)