Python Sweetviz轻松实现探索性数据分析

 更新时间:2021年11月03日 16:28:57   作者:Python学习与数据挖掘  
Sweetviz是一个开放源代码Python库,可生成精美的高密度可视化文件,以单行代码启动EDA(探索性数据分析)。输出是一个完全独立的HTML应用程序,该系统围绕快速可视化目标值和比较数据集而构建。其目标是帮助快速分析目标特征,训练与测试数据以及其他此类数据表征任务

Sweetviz 是一个开源 Python 库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA(探索性数据分析)。输出一个HTML。文末提供技术交流群,喜欢点赞支持,收藏。

图片

如上图所示,它不仅能根据性别、年龄等不同栏目纵向分析数据,还能对每个栏目做众数、最大值、最小值等横向对比。

所有输入的数值、文本信息都会被自动检测,并进行数据分析、可视化和对比,最后自动帮你进行总结,是一个探索性数据分析的好帮手。

1.准备

请选择以下任一种方式输入命令安装依赖:
1. Windows 环境 打开 Cmd (开始-运行-CMD)。
2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.

pip install sweetviz

2.sweetviz 基本用法

sweetviz 使用的原理是,使用一行代码,生成一个数据报告的对象(其中,my_dataframe是pandas中的DataFrame,一种表格型数据结构):

import pandas as pd
import sweetviz as sv

# 读取数据
my_dataframe = pd.read_csv('../ImpartData/iris.csv')
# 分析数据
my_report = sv.analyze(my_dataframe)
# 生成报告
my_report.show_html()

执行完成后,会在当前文件夹下生成一个HTML的报告文件

图片

双击这个html,你就能看到精美的分析报告了:

图片

其中,分析数据有三种函数可以用,除了上面提到的analyze函数,还有 compare 和 compare_intra 函数。

首先是analyze函数:

analyze(source: Union[pd.DataFrame, Tuple[pd.DataFrame, str]],
            target_feat: str = None,
            feat_cfg: FeatureConfig = None,
            pairwise_analysis: str = 'auto')

可见其有以下4个参数可以配置:

  • source: 以pandas中的DataFrame数据结构作为分析对象。
  • target_feat: 需要被标记为目标对象的字符串。
  • feat_cfg: 需要被跳过、或是需要被强制转换为某种数据类型的特征。
  • pairwise_analysis: 相关性分析可能需要花费较长时间。如果超过了你的忍受范围,就需要设置这个参数为on或者off,以判断是否需要分析数据相关性。

compare()丨两个数据集比较

my_report = sv.compare([my_dataframe, "Training Data"], [test_df, "Test Data"], "Survived", feature_config)

要比较两个数据集,只需使用该 compare() 函数。它的参数与 analyze() 相同,只是插入了第二个参数来覆盖比较数据帧。建议使用 [dataframe, “name”] 参数格式以更好地区分基础数据帧和比较数据帧。(例如 [my_df, "Train"]my_df 更好)

compare_intra()丨数据集栏目比较

my_report = sv.compare_intra(my_dataframe, my_dataframe["Sex"] == "male", ["Male", "Female"], feature_config)

想要对数据集中某个栏目下的参数进行分析,就采用这个函数进行。
例如,如果需要比较“性别”栏目下的“男性”和“女性”,就可以采用这个函数。

3.调整报告布局

一旦你创建了你的报告对象,只需将它传递给两个show函数中的一个:

1. show_html():

show_html( filepath='SWEETVIZ_REPORT.html',
            open_browser=True,
            layout='widescreen',
            scale=None)

**show_html(…)**将在当前文件路径中创建并保存 HTML 报告。有以下参数:

  • layout (布局):无论是 'widescreen'或 ‘vertical'。当鼠标移过每个功能时,宽屏布局会在屏幕右侧显示详细信息。新的(从 2.0 开始)垂直布局在水平方向上更加紧凑,并且可以在单击时扩展每个细节区域。
  • scale:使用浮点数(scale=0.8或 None )来缩放整个报告。
  • open_browser:启用 Web 浏览器的自动打开以显示报告。如果不需要,可以在此处禁用它。

2.show_notebook():

show_notebook( w=None,
                h=None,
                scale=None,
                layout='widescreen',
                filepath=None)

它将嵌入一个 IFRAME 元素,在notebook中显示报告(例如 Jupyter、Google Colab 等)。

请注意,由于Notebook通常是一个更受限制的环境,因此使用自定义宽度/高度/比例值 (w , h , scale) 可能是个好主意。选项是:

  • w(宽度):设置报告输出窗口的宽度。可以是百分比字符串 ( w=“100%”) 或像素 (w=900)。
  • h(高度):设置报告输出窗口的高度。可以是像素数 (h=700) 或将窗口拉伸到与所有特征 ( h=“full”)一样高。
  • scale:与上面的 show_html 相同。
  • layout:与上面的 show_html 相同。
  • scale:与上面的 show_html 相同。
  • filepath:可选的输出 HTML 报告。

我们的文章到此就结束啦,如果你喜欢今天文章,点赞、支持、关注。

技术交流

欢迎转载、收藏、有所收获点赞支持一下!

在这里插入图片描述

到此这篇关于Python Sweetviz轻松实现探索性数据分析的文章就介绍到这了,更多相关Python Sweetviz内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python中的对象拷贝示例 python引用传递

    python中的对象拷贝示例 python引用传递

    你想复制一个对象?因为在Python中,无论你把对象做为参数传递,做为函数返回值,都是引用传递的
    2014-01-01
  • 使用python读取CSV文件时遇到编码问题解决方案

    使用python读取CSV文件时遇到编码问题解决方案

    这篇文章主要介绍了用python读取CSV文件时遇到编码问题,本文给大家分享最优解决方案,通过使用csvkit,它使用自动检测适当的编码和解码,需要的朋友可以参考下
    2023-08-08
  • pyqt5 使用cv2 显示图片,摄像头的实例

    pyqt5 使用cv2 显示图片,摄像头的实例

    今天小编就为大家分享一篇pyqt5 使用cv2 显示图片,摄像头的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Java基础技术之反射详解

    Java基础技术之反射详解

    这篇文章主要介绍了Java基础技术之反射详解,反射就是把Java类中的各个部分,映射成一个个的Java对象,拿到这些对象后可以做一些事情,需要的朋友可以参考下
    2023-07-07
  • Python利用shutil实现拷贝文件功能

    Python利用shutil实现拷贝文件功能

    shutil 是一个 Python 内置模块,该模块对文件的复制、删除和压缩等操作都提供了非常方便的支持。本文将利用shutil实现拷贝文件功能,需要的可以参考一下
    2022-07-07
  • Python Grid使用和布局详解

    Python Grid使用和布局详解

    这篇文章主要为大家详细介绍了Python Grid使用和布局,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • Python面经之16个高频面试问题总结

    Python面经之16个高频面试问题总结

    这篇文章主要给大家介绍了关于Python面经之16个高频面试问题的相关资料,帮助大家回顾基础知识,了解面试套路,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-03-03
  • Python中生成Epoch的方法

    Python中生成Epoch的方法

    下面小编就为大家带来一篇Python中生成Epoch的方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-04-04
  • Python3+django2.0+apache2+ubuntu14部署网站上线的方法

    Python3+django2.0+apache2+ubuntu14部署网站上线的方法

    这篇文章主要介绍了Python3+django2.0+apache2+ubuntu14部署网站上线的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • 解决Python spyder显示不全df列和行的问题

    解决Python spyder显示不全df列和行的问题

    这篇文章主要介绍了解决Python spyder显示不全df列和行的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04

最新评论