在 Python 中进行 One-Hot 编码

 更新时间:2022年02月21日 15:51:14   作者:来西瓜  
这篇文章主要介绍了在 Python 中进行 One-Hot 编码,  在计算机科学的许多分支中,尤其是机器学习和数字电路设计中,One-Hot Encoding 被广泛使用,下文我们就来实操在 Python 中进行 One-Hot 编码吧,需要的朋友可以参考一下

1.介绍​

      在计算机科学中,数据可以用很多不同的方式表示,自然而然地,每一种方式在某些领域都有其优点和缺点。
      由于计算机无法处理分类数据,因为这些类别对它们没有意义,如果我们希望计算机能够处理这些信息,就必须准备好这些信息。
      此操作称为预处理。 预处理的很大一部分是编码 - 以计算机可以理解的方式表示每条数据(该名称的字面意思是“转换为计算机代码”)。
      在计算机科学的许多分支中,尤其是机器学习和数字电路设计中,One-Hot Encoding 被广泛使用。
      在本文中,我们将解释什么是 one-hot 编码,并使用一些流行的选择(Pandas 和 Scikit-Learn)在 Python 中实现它。 我们还将比较它与计算机中其他类型表示的有效性、优点和缺点,以及它的应用。

2.什么是One-Hot编码?

      One-hot Encoding 是一种向量表示,其中向量中的所有元素都是 0,除了一个,它的值是 1,其中 1 表示指定元素类别的布尔值。

      还有一个类似的实现,称为One-Cold Encoding,其中向量中的所有元素都是 1,除了 1 的值是 0。

      例如,[0, 0, 0, 1, 0] 和 [1 ,0, 0, 0, 0] 可以是One-hot 向量的一些示例。 与此类似的技术,也用于表示数据,例如统计中的虚拟变量。

      这与其他编码方案非常不同,其他编码方案都允许多个位的值为 1。 下表比较了从 0 到 7 的数字在二进制、格雷码和 one-hot 中的表示:

实际上,对于每个 one-hot 向量,我们会问 n 个问题,其中 n 是我们拥有的类别数:

      这是数字1吗? 这是数字2吗? ......这是数字7吗?

      每个“0”都是“假”,一旦我们在向量中找到“1”,问题的答案就是“真”。

      One-hot 编码将分类特征转换为一种更适合分类和回归算法的格式。 它在需要多种类型数据表示的方法中非常有用。

例如,一些向量可能最适合回归(基于以前的返回值逼近函数),而一些可能最适合分类(分类为固定集/类,通常是二元的):

这里我们有六个分类数据的样本输入。 此处使用的编码类型称为“label encoding”——它非常简单:我们只需为分类值分配一个 ID。

      我们的计算机现在知道如何表示这些类别,因为它知道如何处理数字。 然而,这种编码方法并不是很有效,因为它自然会赋予更高的数字更高的权重。

      说我们的“Strawberries”类别大于或小于“Apples”是没有意义的,或者将类别“Lemon”添加到“Peach”会给我们一个类别“Orange”,因为这些值不是序数。

      如果我们用 one-hot 编码表示这些类别,我们实际上会用列替换行。 我们通过为每个给定类别创建一个布尔列来实现这一点,其中只有这些列之一可以为每个样本取值 1:

我们可以从上表中看出,与二进制或格雷码相比,one-hot 表示需要更多的数字。 对于n个数字,one-hot编码只能表示n个值,而Binary或Gray编码可以用n个数字表示2n个值。

​3.实现-Pandas​

      让我们看一个简单的示例,说明如何通过 one-hot 编码方案将数据集中的分类列中的值转换为对应的数值。    

我们将创建一个非常简单的数据集 - 国家及其 ID 的列表:

       在上面的脚本中,我们使用两个列表(即 ids 和国家/地区)创建了一个Pandas dataframe,称为 df。 如果您在数据帧上调用 head() 方法,会看到以下结果:

Countries列包含分类值。 我们可以使用 get_dummies() 函数将Countries列中的值转换为one-hot编码向量:

我们将 Country 作为 get_dummies() 方法的前缀属性的值传递,因此您可以在输出中的每个单热编码列的标题之前看到字符串 Country 前缀。

​4.实现-Scikit-Learn​

      另一种方法是使用另一个流行的库 - Scikit-Learn。 为此,它提供了 OneHotEncoder 类和 LabelBinarizer 类。

首先,导入库LabelBinarizer:

打印y值:

同样,我们可以使用支持多列数据的 OneHotEncoder 类,与之前的类不同:

5.​One-hot编码在机器学习领域的应用​

      如上所述,计算机不太擅长处理分类数据。 虽然我们很好地理解分类数据,但这是由于计算机不具备的一种先决知识。

      大多数机器学习技术和模型使用非常有限的数据集(通常是二进制)。 神经网络消耗数据并产生 0..1 范围内的结果,我们很少会超出该范围。

      简而言之,绝大多数机器学习算法都会接收样本数据(“训练数据”),从中提取特征。 基于这些特征,创建了一个数学模型,然后用于进行预测或决策,而无需明确编程来执行这些任务。

      一个很好的例子是分类,其中输入在技术上可以是无界的,但输出通常仅限于几个类别。 在二元分类的情况下(假设我们正在教一个神经网络对猫和狗进行分类),我们的映射为 0 代表猫,1 代表狗。

      大多数情况下,我们希望对其进行预测的训练数据是分类的,就像上面提到的带有水果的例子一样。 同样,虽然这对我们很有意义,但这些词本身对算法没有意义,因为它不理解它们。

      在这些算法中使用one-hot编码来表示数据在技术上不是必需的,但如果我们想要一个有效的实现,它非常有用。

到此这篇关于在 Python 中进行 One-Hot 编码的文章就介绍到这了,更多相关 Python 中进行 One-Hot 编码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python pygame实现球球大作战

    python pygame实现球球大作战

    这篇文章主要为大家详细介绍了Python pygame实现球球大作战,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-11-11
  • Anaconda如何查看自己目前安装的包详解

    Anaconda如何查看自己目前安装的包详解

    Anaconda是一种用于数据科学和机器学习的开源发行版,它包含了很多常用的Python包和工具,如NumPy、Pandas、Scipy、Scikit-Learn等,下面这篇文章主要给大家介绍了关于Anaconda如何查看自己目前安装的包的相关资料,需要的朋友可以参考下
    2023-05-05
  • 零基础写python爬虫之抓取糗事百科代码分享

    零基础写python爬虫之抓取糗事百科代码分享

    前面我们介绍了如何抓取百度贴吧文章,然后讲解了python的神器正则表达式,下面,我们就把2者结合起来,详细介绍下,如何来抓取到糗事百科里面的指定内容
    2014-11-11
  • Pytorch-mlu 实现添加逐层算子方法详解

    Pytorch-mlu 实现添加逐层算子方法详解

    本文主要分享了在寒武纪设备上 pytorch-mlu 中添加逐层算子的方法教程,代码具有一定学习价值,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-11-11
  • Python基于opencv的图像压缩算法实例分析

    Python基于opencv的图像压缩算法实例分析

    这篇文章主要介绍了Python基于opencv的图像压缩算法,结合实例形式分析了使用opencv进行图像压缩的常用操作技巧与注意事项,需要的朋友可以参考下
    2018-05-05
  • Python+Matplotlib绘制重叠柱状图

    Python+Matplotlib绘制重叠柱状图

    重叠柱状图 (Overlapped Bar) 是一种比较图,可以将两个柱状图叠加在一起,显示两个相关变量之间的差异,所以本文就来用Matplotlib绘制一个简单的重叠柱状图吧
    2023-06-06
  • python中extend功能用法举例

    python中extend功能用法举例

    这篇文章主要给大家介绍了关于python中extend功能的相关资料,Python中的extend()方法是一种非常有用的列表操作,它可以将一个列表中的元素添加到另一个列表的末尾,需要的朋友可以参考下
    2023-08-08
  • python学习基础之循环import及import过程

    python学习基础之循环import及import过程

    python中的import语句是用来导入模块的,下面这篇文章主要给大家介绍了关于python学习基础之循环import及import过程的相关资料,需要的朋友可以参考借鉴,下面随着小编来一起学习学习吧。
    2018-04-04
  • Python实现音频提取的示例详解

    Python实现音频提取的示例详解

    在日常生活中,有好听的翻唱视频或音乐视频可以将其音频分离保存到网易云或QQ音乐中随时听,然而大部分的音频分离软件需要下载和安装,所以本文就来分享一种提取音频的简便方法吧
    2023-09-09
  • python中list方法详解

    python中list方法详解

    list 是 Python 中的一种内置数据类型,代表一个可变的有序序列。list 类型的对象可以使用多个方法来操作和修改其中的元素。文中通过代码示例详细介绍了list的常用方法,感兴趣的同学可以参考阅读
    2023-04-04

最新评论