- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

独热(One-Hot)编码简述

辰chen 发表于 2022/06/15 00:33:56 2022/06/15

【摘要】目录 1.前言2.什么是 one-hot 编码？3.Python 代码 1.前言今天看Colab上的代码的时候突然看到了这个概念，抱着好奇的心态学习了一下，挺基础也很重要的一个概念，5m...

1.前言

今天看Colab上的代码的时候突然看到了这个概念，抱着好奇的心态学习了一下，挺基础也很重要的一个概念，5min左右就可以了解

2.什么是 one-hot 编码？

定义：

独热编码即 One-Hot 编码，又称一位有效编码。其方法是使用 N 位状态寄存器来对 N 个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

看不懂么？看不懂很正常（看懂了我觉得不太正常hhh，下面通过举例子很好理解：

这里有三个特征：

性别特征：[‘女’, ‘男’]

国籍特征：[‘中国’, ‘美国’, ‘俄罗斯’, ‘英国’]

年龄特征：[18, 19, 20]

那么，我们现在表示一个20岁中国国籍的男生，那么他的特征为：[‘男’, ‘中国’, 20]，我们将特征数字化，即表示为：[1, 0, 2]，但是这样的特征放入 Machine Learning 中是不可以的，因为类别之间是无序的，针对这种情况，我们介绍 one-hot 编码：

对于性别特征，有两种取值：女/男，我们用 10(二进制) 表示女，用 01(二进制)表示男

对于国籍特征，有四种取值，我们用 1000(二进制)表示中国，0100(二进制)表示美国，0010(二进制)表示俄罗斯，0001(二进制)表示英国

对于年龄特征，有三种取值，我们用 100(二进制)表示18岁，010(二进制)表示19岁，001(二进制)表示20岁

故对于20岁中国国籍的男生，我们可以表示为：[011000001]，用下面这张图更能形象化理解：

3.Python 代码

下述代码在 Jupyter 上运行，没有安装过 Jupyter 的读者可以看博客：最详细的Anaconda Installers 的安装【numpy，jupyter】（图+文）

from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()         # 调用OneHotEncoder()
enc.fit([[0, 2, 2],
         [1, 1, 4],
         [1, 0, 1],
         [0, 1, 3]])  # 提供训练数据：4个数据，3种特征
   
array = enc.transform([[0,1,3]]).toarray()  # 测试，随便输入一个新数据去测试
   
array   # 独热编码结果:[[1., 0., 0., 1., 0., 0., 0., 1., 0.]] 

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11

文章来源: chen-ac.blog.csdn.net，作者：辰chen，版权归原作者所有，如需转载，请联系作者。

原文链接：chen-ac.blog.csdn.net/article/details/125106132

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

独热(One-Hot)编码简述

目录

1.前言

2.什么是 one-hot 编码？

3.Python 代码

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品