机器学习这四个东西,你知道吗?

举报
毛利 发表于 2021/07/15 05:29:59 2021/07/15
【摘要】 分类变量特征提取 分类数据的独热编码方法,分类变量特征提取(One-of-K or One-Hot Encoding): 通过二进制数来表示每个解释变量的特征 from sklearn.feature_extraction import DictVectorizer onhot_encoder = DictVectorizer() instances=[{'city...

分类变量特征提取

分类数据的独热编码方法,分类变量特征提取(One-of-K or One-Hot Encoding):
通过二进制数来表示每个解释变量的特征

from sklearn.feature_extraction import DictVectorizer
onhot_encoder = DictVectorizer()
instances=[{'city':'New York'},{'city':'San Francisco'},{'city':'Chapel Hill'}]
print (onhot_encoder.fit_transform(instances).toarray())


[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

文字特征提取-词库模型

文字模型化最常用方法,可以看成是独热编码的一种扩展,它为每个单词设值一个特征值。依据是用类似单词的文章意思也差不多。可以通过有限的编码信息实现有效的文档分类和检索。

CountVectorizer 类会将文档全部转换成小写,然后将文档词块化(tokenize).文档词块化是把句子分割成词块(token)或有意义的字母序列的过程。词块大多是单词,但是他们也可能是一些短语,如标点符号和词缀。

CountVectorizer类通过正则表达式用空格分割句子,然后抽取长度大于等于2的字母序列。

 from sklearn.feature_extraction.text import CountVectorizer
corpus = [ 'UNC played Duke in basketball',
  'Duke lost the basketball game',
  
 
  • 1
  • 2
  • 3

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/105200978

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。