Python数据处理的三个实用技巧分享

 更新时间:2022年04月01日 11:45:01   作者:Python学习与数据挖掘  
数据处理无所不在,掌握常用技巧,事半功倍。这篇文章将使用Pandas开展数据处理分析,总结其中常用、好用的数据分析技巧,感兴趣的可以学习一下

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则”

    使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则”

    这篇文章主要介绍了使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则”,笔者用 Python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论。需要的朋友可以参考下
    2018-03-03
  • 利用Python打造一个多人聊天室的示例详解

    利用Python打造一个多人聊天室的示例详解

    这篇文章主要介绍的是利用Python实现的一个简易的多人聊天室,文中的示例代码讲解详细,对学习Python有一定的帮助,感兴趣的可以学习一下
    2021-12-12
  • Python中Qslider控件实操详解

    Python中Qslider控件实操详解

    在本篇文章里小编给大家整理的是一篇关于Python中Qslider控件实操详解内容,对此有兴趣的朋友们可以跟着学习参考下。
    2021-02-02
  • Django框架model模型对象验证实现方法分析

    Django框架model模型对象验证实现方法分析

    这篇文章主要介绍了Django框架model模型对象验证实现方法,结合实例形式分析了Django框架model模型对象验证相关原理、实现步骤及操作注意事项,需要的朋友可以参考下
    2019-10-10
  • python用moviepy对视频进行简单的处理

    python用moviepy对视频进行简单的处理

    这篇文章主要介绍了python如何用moviepy对视频进行简单的处理,帮助大家更好的利用python处理视频,感兴趣的朋友可以了解下
    2021-03-03
  • Python 启动时选择32位 或64位版的操作

    Python 启动时选择32位 或64位版的操作

    这篇文章主要介绍了Python 启动时选择32位 或64位版的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • 使用NumPy进行数组数据处理的示例详解

    使用NumPy进行数组数据处理的示例详解

    NumPy是Python中用于数值计算的核心包之一,它提供了大量的高效数组操作函数和数学函数,可以支持多维数组和矩阵运算。本文主要为大家介绍了NumPy进行数组数据处理的具体方法,需要的可以参考一下
    2023-03-03
  • Python Fire实现自动生成命令行接口

    Python Fire实现自动生成命令行接口

    命令行程序是平时写一些小工具时最常用的方式,随着命令行程序功能的丰富,也就是参数多了以后,解析和管理参数之间的关系会变得越来越繁重,而本次介绍的 Fire 库正好可以解决这个问题,下面我们就来看看具体实现方法吧
    2023-09-09
  • Python使用base64模块进行二进制数据编码详解

    Python使用base64模块进行二进制数据编码详解

    这篇文章主要介绍了Python使用base64模块进行二进制数据编码详解,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • python里面单双下划线的区别详解

    python里面单双下划线的区别详解

    本文主要介绍了python里面单双下划线的区别详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-04-04

最新评论