Python sklearn预测评估指标混淆矩阵计算示例详解

 更新时间:2023年02月15日 11:38:07   作者:fanstuck  
这篇文章主要为大家介绍了Python sklearn预测评估指标混淆矩阵计算示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

前言

很多时候需要对自己模型进行性能评估,对于一些理论上面的知识我想基本不用说明太多,关于校验模型准确度的指标主要有混淆矩阵、准确率、精确率、召回率、F1 score。另外还有P-R曲线以及AUC/ROC,这些我都有写过相应的理论和具体理论过程:

机器学习:性能度量篇-Python利用鸢尾花数据绘制ROC和AUC曲线

机器学习:性能度量篇-Python利用鸢尾花数据绘制P-R曲线

 这里我们主要进行实践利用sklearn快速实现模型数据校验,完成基础指标计算。

混淆矩阵

查准率(precision)与查全率(recall)是对于需求在信息检索、Web搜索等应用评估性能度量适应度高的检测数值。对于二分类问题,可将真实类别与算法预测类别的组合划分为真正例(ture positive)、假证例(false positive)、真反例(true negative)、假反例(false negative)四种情形。显然TP+FP+TN+FN=样例总数。分类结果为混淆矩阵:

以分类模型中最简单的二分类为例,对于这种问题,我们的模型最终需要判断样本的结果是0还是1,或者说是positive还是negative。 因此,我们就能得到这样四个基础指标,我称他们是一级指标(最底层的):

  • 真实值是positive,模型认为是positive的数量(True Positive=TP)
  • 真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第二类错误(Type II Error)
  • 真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第一类错误(Type I Error)
  • 真实值是negative,模型认为是negative的数量(True Negative=TN)

预测性分类模型,肯定是希望越准越好。那么,对应到混淆矩阵中,那肯定是希望TP与TN的数量大,而FP与FN的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三象限对应位置出现的观测值肯定是越少越好。

python代码

混淆矩阵一般来说可以有三种实现展示方法,需要前置计算出混淆矩阵数据,这一点使用sklearn就可以实现:

from sklearn.metrics import confusion_matrix
y_true =df_evaluation.state_y
y_pred =df_evaluation.state_x
cm= confusion_matrix(y_true, y_pred,labels=[2,3,4,5])

其中cm就是计算出来的混淆矩阵:

利用sklearn的confusion_matrix函数就可以实现,这里将该函数的参数铺开一下:

sklearn.metrics.confusion_matrix(y_true, 
                                 y_pred, 
                                 *, 
                                 labels=None, 
                                 sample_weight=None, 
                                 normalize=None)

参数说明:

  • y_true:对比真值
  • y_pred: 预测值
  • labels:索引矩阵的标签列表。这可用于重新排序或选择标签的子集。如果给定“无”,则按排序顺序使用在y_true或y_pred中至少出现一次的值。
  • sample_weight:样本权重
  • normalize:在真(行)、预测(列)条件或所有总体上规范化混淆矩阵。如果“无”,则混淆矩阵将不会被归一化。

得到了混淆矩阵接下来进行数据可视化就好了,这里有三种实现形式,其中matplotlib和seaborn实现方法是一样的,都是热力图实现,另外sklearn自带一个ConfusionMatrixDisplay也可以直接实现热力。 第一种matplotlib/seaborn:

import seaborn as sns
import matplotlib.pyplot as plt
labels=[2,3,4,5]
sns.heatmap(cm,annot=True ,fmt="d",xticklabels=labels,yticklabels=labels)
plt.title('confusion matrix')  # 标题
plt.xlabel('Predict lable')  # x轴
plt.ylabel('True lable')  # y轴
plt.show()

第二种ConfusionMatrixDisplay:

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)
disp.plot(
    include_values=True,            
    cmap="viridis",                 
    ax=None,                        
    xticks_rotation="horizontal",   
    values_format="d"               
)
plt.show()

这里我主要将一下ConfusionMatrixDisplay.plot()的可选参数:

plot(*, 
     include_values=True, 
     cmap='viridis', 
     xticks_rotation='horizontal', 
     values_format=None, 
     ax=None, 
     colorbar=True, 
     im_kw=None, 
     text_kw=None)

参数说明:

  • include_values:bool,default=True。包括混淆矩阵中的值。
  • cmap:str or matplotlib Colormap, default=’viridis’。matplotlib识别的颜色映射。
  • xticks_rotation: {‘vertical’, ‘horizontal’} or float, default=’horizontal’。旋转xtick标签。
  • values_format:str, default=None。混淆矩阵中值的格式规范。如果无,则格式规范为“d”或“.2g”,以较短者为准。
  • ax: matplotlib axes, default=None。要绘制的轴对象。如果为“无”,则创建新的图形和轴。
  • colorbar:bool, default=True。是否向绘图添加色条。
  • im_kw:dict, default=None。使用传递给matplotlib.pyplot.imshow调用的关键字进行读写。
  • text_kw:dict, default=None。使用传递给matplotlib.pyplot.text调用的关键字进行读写。

以上就是Python sklearn预测评估指标混淆矩阵计算示例详解的详细内容,更多关于Python sklearn预测评估混淆矩阵的资料请关注脚本之家其它相关文章!

相关文章

  • Python读取配置文件(config.ini)以及写入配置文件

    Python读取配置文件(config.ini)以及写入配置文件

    这篇文章主要介绍了Python读取配置文件(config.ini)以及写入配置文件,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python的10道简单测试题(含答案)

    Python的10道简单测试题(含答案)

    这篇文章主要介绍了Python的10道简单测试题(含答案),学习了一段时间python的小伙伴来做几道测试题检验一下自己的学习成果吧
    2023-04-04
  • Python OpenCV 图像矫正的原理实现

    Python OpenCV 图像矫正的原理实现

    这篇文章主要介绍了Python OpenCV 图像矫正的原理实现,检测边缘点;以边缘点作为输入,采用Hough直线检测,检测出最多点共线的四条直线,更多相关内容需要的朋友可以参考一下
    2022-07-07
  • Python3中最常用的5种线程锁实例总结

    Python3中最常用的5种线程锁实例总结

    python3线程中锁机制还是很重要的知识点,如果大家不清楚锁机制的话,那就一定要好好看下这篇文章,这篇文章主要给大家总结介绍了光宇Python3中最常用的5种线程锁,需要的朋友可以参考下
    2021-07-07
  • Python调用GPT3.5接口的最新方法实例详解

    Python调用GPT3.5接口的最新方法实例详解

    这篇文章主要介绍了Python调用GPT3.5接口的最新方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • Python源码解析之List

    Python源码解析之List

    今天带大家来复习Python底层代码LIST,文中有非常详细的介绍及代码示例,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • python利用PyQt5设计鼠标显示形状

    python利用PyQt5设计鼠标显示形状

    不知道大家有没有发现,我们在网页移动鼠标时,不同的网页会有不同的鼠标移动特效,通过移动鼠标,会形成类似蜘蛛网等等的特效,本文将用PyQt5实现这一特效,需要的可以参考一下
    2024-07-07
  • TensorFlow打印tensor值的实现方法

    TensorFlow打印tensor值的实现方法

    今天小编就为大家分享一篇TensorFlow打印tensor值的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • 基于PyQt制作小红书图片抓取工具

    基于PyQt制作小红书图片抓取工具

    这篇文章主要为大家详细介绍了如何基于PyQt制作一个小红书图片抓取工具,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-11-11
  • TensorFlow中关于tf.app.flags命令行参数解析模块

    TensorFlow中关于tf.app.flags命令行参数解析模块

    这篇文章主要介绍了TensorFlow中关于tf.app.flags命令行参数解析模块,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11

最新评论