pandas:get_dummies()与pd.factorize()的用法及区别说明

 更新时间:2021年05月21日 08:48:51   作者:Rookiekk  
这篇文章主要介绍了pandas:get_dummies()与pd.factorize()的用法及区别说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:对应的编码array

uniques:需要编码的类型

补充:pandas.get_dummies 的使用及含义

get_dummies 是利用pandas实现one hot encode的方式

get_dummies参数如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默认为None,

用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep : string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者传递与前缀一样的列表或字典。

dummy_na : bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

columns : 类似列表,默认为无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

sparse : bool,默认为False

伪编码列是否应由SparseArray(True)或常规NumPy数组(False)支持。

drop_first : bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

dtype: D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

实例

函数实例

prefix自定义前缀

prefix

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python和perl实现批量对目录下电子书文件重命名的代码分享

    Python和perl实现批量对目录下电子书文件重命名的代码分享

    这篇文章主要介绍了Python和perl实现批量对目录下电子书文件重命名的代码分享,本文同时给出了Python和perl两种语言的实现代码,需要的朋友可以参考下
    2014-11-11
  • 在Python中利用Into包整洁地进行数据迁移的教程

    在Python中利用Into包整洁地进行数据迁移的教程

    这篇文章主要介绍了在Python中如何利用Into包整洁地进行数据迁移,在数据格式的任意两个格式之间高效地迁移数据,需要的朋友可以参考下
    2015-03-03
  • Python中的Socket 与 ScoketServer 通信及遇到问题解决方法

    Python中的Socket 与 ScoketServer 通信及遇到问题解决方法

    Socket有一个缓冲区,缓冲区是一个流,先进先出,发送和取出的可自定义大小的,如果取出的数据未取完缓冲区,则可能存在数据怠慢。本文通过实例代码给大家介绍Python中的Socket 与 ScoketServer 通信及遇到问题解决方法 ,需要的朋友参考下吧
    2019-04-04
  • python爬虫用mongodb的理由

    python爬虫用mongodb的理由

    在本篇内容中小编给大家整理的是关于python爬虫用mongodb的理由,需要的朋友们可以跟着学习参考下。
    2020-07-07
  • 你会使用python爬虫抓取弹幕吗

    你会使用python爬虫抓取弹幕吗

    这篇文章主要为大家详细介绍了python爬虫抓取弹幕的方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • python中tf.boolean_mask()函数的使用方法详解

    python中tf.boolean_mask()函数的使用方法详解

    这篇文章主要介绍了python中tf.boolean_mask()函数的使用方法详解, tf.boolean_mask() 函数的作用是通过布尔值对指定的列的元素进行过滤,需要的朋友可以参考下
    2023-11-11
  • pd.read_csv读取文件路径出现的问题解决

    pd.read_csv读取文件路径出现的问题解决

    本文主要介绍了pd.read_csv读取文件路径出现的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Python代码列表求并集,交集,差集

    Python代码列表求并集,交集,差集

    这篇文章主要介绍了Python代码列表求并集,交集,差集,下面文章讲详细的介绍如何利用python代码实现并集,交集,差集的相关资料展开内容,需要的朋友可以参考一下
    2021-11-11
  • python字符串替换的2种方法

    python字符串替换的2种方法

    python 字符串替换 是python 操作字符串的时候经常会碰到的问题,这里简单介绍下字符串替换方法
    2014-11-11
  • Python绘图之二维图与三维图详解

    Python绘图之二维图与三维图详解

    这篇文章主要介绍了Python绘图之二维图与三维图详解,文中通过示例代码与效果图片一一对照介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08

最新评论