独热(One-Hot)编码简述

举报
辰chen 发表于 2022/06/15 00:33:56 2022/06/15
【摘要】 目录 1.前言2.什么是 one-hot 编码?3.Python 代码 1.前言 今天看Colab上的代码的时候突然看到了这个概念,抱着好奇的心态学习了一下,挺基础也很重要的一个概念,5m...

1.前言

今天看Colab上的代码的时候突然看到了这个概念,抱着好奇的心态学习了一下,挺基础也很重要的一个概念,5min左右就可以了解

2.什么是 one-hot 编码?

定义:

独热编码即 One-Hot 编码,又称一位有效编码。其方法是使用 N 位状态寄存器来对 N 个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

看不懂么?看不懂很正常(看懂了我觉得不太正常hhh,下面通过举例子很好理解:

这里有三个特征:

性别特征:[‘女’, ‘男’]

国籍特征:[‘中国’, ‘美国’, ‘俄罗斯’, ‘英国’]

年龄特征:[18, 19, 20]

那么,我们现在表示一个20岁中国国籍的男生,那么他的特征为:[‘男’, ‘中国’, 20],我们将特征数字化,即表示为:[1, 0, 2],但是这样的特征放入 Machine Learning 中是不可以的,因为类别之间是无序的,针对这种情况,我们介绍 one-hot 编码:

对于性别特征,有两种取值:女/男,我们用 10(二进制) 表示女,用 01(二进制)表示男

对于国籍特征,有四种取值,我们用 1000(二进制)表示中国,0100(二进制)表示美国,0010(二进制)表示俄罗斯,0001(二进制)表示英国

对于年龄特征,有三种取值,我们用 100(二进制)表示18岁,010(二进制)表示19岁,001(二进制)表示20岁

故对于20岁中国国籍的男生,我们可以表示为:[011000001],用下面这张图更能形象化理解:

在这里插入图片描述

3.Python 代码

下述代码在 Jupyter 上运行,没有安装过 Jupyter 的读者可以看博客:最详细的Anaconda Installers 的安装【numpy,jupyter】(图+文)

from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()         # 调用OneHotEncoder()
enc.fit([[0, 2, 2],
         [1, 1, 4],
         [1, 0, 1],
         [0, 1, 3]])  # 提供训练数据:4个数据,3种特征
   
array = enc.transform([[0,1,3]]).toarray()  # 测试,随便输入一个新数据去测试
   
array   # 独热编码结果:[[1., 0., 0., 1., 0., 0., 0., 1., 0.]] 

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

文章来源: chen-ac.blog.csdn.net,作者:辰chen,版权归原作者所有,如需转载,请联系作者。

原文链接:chen-ac.blog.csdn.net/article/details/125106132

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。