pandas将DataFrame的几列数据合并成为一列

 更新时间:2022年02月08日 10:14:32   作者:Yale曼陀罗  
本文主要介绍了pandas将DataFrame的几列数据合并成为一列,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

1.1 方法归纳

  • 使用 + 直接将多列合并为一列(合并列较少);
  • 使用pandas.Series.str.cat方法,将多列合并为一列(合并列较多);

范例如下:

dataframe["newColumn"] = dataframe["age"].map(str) + dataframe["phone"] + dataframe["address”]
#或者
dataframe["newColumn"] = dataframe["age"].map(str).str.cat([dataframe["phone"],dataframe["address”]],sep='-',na_rep='?')

注意事项:

  • 参与合并的列的数据类型必须为str类型,int和float等数值类型需先转化为str;
  • 参与合并的列的长度必须相同(即:行数),否则报错,但使用pandas.Series.str.cat方法,可通过指定参数join={‘left’, ‘right’, ‘outer’, ‘inner’},实现长度不相等的列合并;
  • 参与合并的列的各行元素均不为NaN,否则,只要有一列的对应行元素为NaN,则合并结果中该行将为NaN,但使用pandas.Series.str.cat方法,可通过指定参数na_rep='-',将各列中缺失行元素填充为‘-’,从而保留合并列的所有行元素;

1.2 .str.cat函数详解

1.2.1 语法格式:

# pandas.Series.str.cat语法如下:
Series.str.cat(others=None, sep=None, na_rep=None, join=None)

1.2.2 参数说明:

others : 准备合并的字符串列表,其数据类型可以为:Series, Index, DataFrame, np.ndarrary(N元数组) or list-like(类似列表)

备注: 由于默认join=None,所以欲合并的两个(多个)字符串列表必须具有相同的长度,否则需设置参数join= {‘left’, ‘right’, ‘outer’, ‘inner’},来控制多个字符串列表的合并方式。

(1)如果others=None(即:字符串列表df[col_1]不与其他字符串列表合并),结果将不传递其他值,而是将df[col_1]的所有值都连接成一个字符串;(详见范例1-1)

(2)如果others≠None(即:指定了与字符串列表df[col_1]合并的其他字符串列表df[col_2]),结果将用分隔符把df[col_1]与df[col_2]对应的行值连接在一起, 返回Series。(详见范例1-2)

sep:合并结果中不同元素/列之间的分隔符。默认情况下,使用空字符串’ ’ 。
na_rep:为所有缺失值插入的内容,其数据类型可以为:str或None,默认na_rep=None

备注:

(1)如果na_rep=None,则多个合并列中只要有一列的对应行元素为NaN,合并结果中该行元素将为NaN;
(2)如果na_rep=‘str’(str需自定义),则合并列中各缺失行元素将被填充为‘str’,合并结果将保留合并列的所有行元素;

join :确定连接方式,其可能的取值为:{‘left’, ‘right’, ‘outer’, ‘inner’},默认join=None

1.2.3 核心功能:

  • 将Series中的多个字符串[‘a’, ‘b’, ‘c’]拼接为一个字符串’a b c’(字符串拼接)
  • 将DataFrame中的两(多)列df[col_1]和df[col_2]合并为一列(多列合并)

备注: pandas.Series.str.cat仅适用于str类型的数据,int和float等数值型需先转化为str型,才可调用此方法。
int型转为str的方法:

1、df[‘Price’]=df[‘Price’].map(lambda x: str(x))
2、df[‘Price’]=df[‘Price’].map(str)
3、df[‘Price’]=df[‘Price’].astype(‘str’)

若要同时将多列合并为一列,需引入列表list来指定准备合并的列,例如:

df[col_1].str.cat([df[col_2],df[col_3],df[col_4]],sep='-')

1.2.4 常见范例:

import numpy as np
import pandas as pd
#创建原始数据
s=pd.Series(['a','b',np.nan,'d'])
>>>
s
0      a
1      b
2    NaN
3      d
# other=None时,调用s.str.cat(),可将series转为用分隔符sep分隔的字符串,缺失项将被省略
s1=s.str.cat(sep=' ')
>>>
s1
'a b d'
# other=None时,指定na_rep='?',结果将保留原series中的缺失项,并用?代替
s2=s.str.cat(sep=' ',na_rep='?')
>>>
s2
'a b ? d'
# other≠None时,调用s.str.cat(),可将两个字符串列表df[col_1]与df[col_2]合并为一列,结果用分隔符sep分隔各项元素,由于默认na_rep=None,故合并时若df[col_1]与df[col_2]的对应行元素有一个为NaN,则合并后该行元素值将为None,结果返回Series
s3=s.str.cat(['A','B','C','D'],sep=',')
>>>
s3
0    a,A
1    b,B
2    NaN
3    d,D
#  other≠None时,调用s.str.cat(),可将两个字符串列表df[col_1]与df[col_2]合并为一列,指定na_rep='-',故合并结果将保留df[col_1]与df[col_2]的所有行,且将df[col_1]与df[col_2]的缺失项填充为‘-'
s4=s.str.cat(['A','B','C','D'],sep=',',na_rep='-')
>>>
s4
0    a,A
1    b,B
2    -,C
3    d,D
# 欲合并的字符串列表df[col_1]与df[col_2]的索引不同时,需指定参数join,确定连接方式
t=pd.Series(['d','a','e','c'],index=[3,0,4,2])
s_1=s.str.cat(t,join='left',na_rep='-')
>>>
s_1
0    aa
1    b-
2    -c
3    dd
s_2=s.str.cat(t,join='outer',na_rep='-')
>>>
s_2
0    aa
1    b-
2    -c
3    dd
4    -e
s_3=s.str.cat(t,join='inner',na_rep='-')
>>>
s_3
0    aa
2    -c
3    dd
s_4=s.str.cat(t,join='right',na_rep='-')
>>>
s_4
3    dd
0    aa
4    -e
2    -c

到此这篇关于pandas将DataFrame的几列数据合并成为一列的文章就介绍到这了,更多相关pandas DataFrame列合并内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解python中的json和字典dict

    详解python中的json和字典dict

    python中,json和dict非常类似,都是key-value的形式,而且json、dict也可以非常方便的通过dumps、loads互转。这篇文章主要介绍了python中的json、字典dict,需要的朋友可以参考下
    2018-06-06
  • python抽取指定url页面的title方法

    python抽取指定url页面的title方法

    今天小编就为大家分享一篇python抽取指定url页面的title方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • python3安装crypto出错及解决方法

    python3安装crypto出错及解决方法

    这篇文章主要介绍了python3安装crypto出错及解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 详解python之协程gevent模块

    详解python之协程gevent模块

    这篇文章主要介绍了详解python之协程gevent模块,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-06-06
  • 对sklearn的使用之数据集的拆分与训练详解(python3.6)

    对sklearn的使用之数据集的拆分与训练详解(python3.6)

    今天小编就为大家分享一篇对sklearn的使用之数据集的拆分与训练详解(python3.6),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • 一文详细NumPy中np.zeros的使用

    一文详细NumPy中np.zeros的使用

    np.zeros是NumPy库中一个非常实用的函数,用于快速创建指定形状和大小的全零数组,本文主要介绍了NumPy中np.zeros的使用,感兴趣的可以了解一下
    2024-03-03
  • Python遍历文件夹和读写文件的实现方法

    Python遍历文件夹和读写文件的实现方法

    本篇文章主要介绍了Python遍历文件夹和读写文件的实现方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-05-05
  • Python可变与不可变数据和深拷贝与浅拷贝

    Python可变与不可变数据和深拷贝与浅拷贝

    这篇文章主要介绍了Python可变与不可变数据和深拷贝与浅拷贝,拷贝函数是专门为可变数据类型list、set、dict使用的一种函数,更多相关内容,需要的小伙伴可以参考一下
    2022-04-04
  • Python手写回归树的实现

    Python手写回归树的实现

    本文主要介绍了Python手写回归树的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • 用python实现面向对像的ASP程序实例

    用python实现面向对像的ASP程序实例

    这篇文章主要介绍了用python实现面向对像的ASP程序,实例讲述了使用Python实现ASP程序的方法,具有一定的参考借鉴价值,需要的朋友可以参考下
    2014-11-11

最新评论