利用Python计算KS的实例详解

更新时间：2020年03月03日 10:32:26 作者：浅笑古今

这篇文章主要介绍了利用Python计算KS的实例详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

在金融领域中，我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。

一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的，KS正好是有效性指标中的区分能力指标：KS用于模型风险区分能力进行评估，KS指标衡量的是好坏样本累计分布之间的差值。

好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。

1、crosstab实现，计算ks的核心就是好坏人的累积概率分布，我们采用pandas.crosstab函数来计算累积概率分布。

2、roc_curve实现，sklearn库中的roc_curve函数计算roc和auc时，计算过程中已经得到好坏人的累积概率分布，同时我们利用sklearn.metrics.roc_curve来计算ks值

3、ks_2samp实现，调用stats.ks_2samp()函数来计算。链接scipy.stats.ks_2samp¶为ks_2samp()实现源码，这里实现了详细过程

4、直接调用stats.ks_2samp()计算ks

import pandas as pd 
import numpy as np
from sklearn.metrics import roc_curve
from scipy.stats import ks_2samp
 
def ks_calc_cross(data,pred,y_label):
  '''
  功能: 计算KS值，输出对应分割点和累计分布函数曲线图
  输入值:
  data: 二维数组或dataframe，包括模型得分和真实的标签
  pred: 一维数组或series，代表模型得分（一般为预测正类的概率）
  y_label: 一维数组或series，代表真实的标签（{0,1}或{-1,1}）
  输出值:
  'ks': KS值，'crossdens': 好坏客户累积概率分布以及其差值gap
  '''
  crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]])
  crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum()
  crossdens['gap'] = abs(crossdens[0] - crossdens[1])
  ks = crossdens[crossdens['gap'] == crossdens['gap'].max()]
  return ks,crossdens
 
def ks_calc_auc(data,pred,y_label):
  '''
  功能: 计算KS值，输出对应分割点和累计分布函数曲线图
  输入值:
  data: 二维数组或dataframe，包括模型得分和真实的标签
  pred: 一维数组或series，代表模型得分（一般为预测正类的概率）
  y_label: 一维数组或series，代表真实的标签（{0,1}或{-1,1}）
  输出值:
  'ks': KS值
  '''
  fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]])
  ks = max(tpr-fpr)
  return ks
 
def ks_calc_2samp(data,pred,y_label):
  '''
  功能: 计算KS值，输出对应分割点和累计分布函数曲线图
  输入值:
  data: 二维数组或dataframe，包括模型得分和真实的标签
  pred: 一维数组或series，代表模型得分（一般为预测正类的概率）
  y_label: 一维数组或series，代表真实的标签（{0,1}或{-1,1}）
  输出值:
  'ks': KS值，'cdf_df': 好坏客户累积概率分布以及其差值gap
  '''
  Bad = data.loc[data[y_label[0]]==1,pred[0]]
  Good = data.loc[data[y_label[0]]==0, pred[0]]
  data1 = Bad.values
  data2 = Good.values
  n1 = data1.shape[0]
  n2 = data2.shape[0]
  data1 = np.sort(data1)
  data2 = np.sort(data2)
  data_all = np.concatenate([data1,data2])
  cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)
  cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)
  ks = np.max(np.absolute(cdf1-cdf2))
  cdf1_df = pd.DataFrame(cdf1)
  cdf2_df = pd.DataFrame(cdf2)
  cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1)
  cdf_df.columns = ['cdf_Bad','cdf_Good']
  cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good']
  return ks,cdf_df
 
data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0],
    'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]}
 
data = pd.DataFrame(data)
ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])
 
ks2=ks_calc_auc(data,['pred'], ['y_label'])
 
ks3=ks_calc_2samp(data,['pred'], ['y_label'])
 
get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statistic
ks4=get_ks(data['pred'],data['y_label'])
print('KS1:',ks1['gap'].values)
print('KS2:',ks2)
print('KS3:',ks3[0])
print('KS4:',ks4)

输出结果：

KS1: [ 0.83333333]
KS2: 0.833333333333
KS3: 0.833333333333
KS4: 0.833333333333

当数据中存在NAN数据时，有一些问题需要注意！

例如，我们在原数据中增加了y_label=0，pred=np.nan这样一组数据

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],
'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}

此时执行

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])

输出结果

KS1: [ 0.83333333]

执行

ks2=ks_calc_auc(data,['pred'], ['y_label'])

将会报以下错误

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

执行

ks3=ks_calc_2samp(data,['pred'], ['y_label'])

输出结果

KS3: 0.714285714286

执行

ks4=get_ks(data['pred'],data['y_label'])

输出结果

KS4: 0.714285714286

我们从上述结果中可以看出

三种方法计算得到的ks值均不相同。

ks_calc_cross计算时忽略了NAN，计算得到了数据正确的概率分布，计算的ks与我们手算的ks相同

ks_calc_auc函数由于内置函数无法处理NAN值，直接报错了，所以如果需要ks_calc_auc计算ks值时，需要提前去除NAN值。

ks_calc_2samp计算得到的ks因为searchsorted()函数（有兴趣的同学可以自己模拟数据看下这个函数），会将Nan值默认排序为最大值，从而改变了数据的原始累积分布概率，导致计算得到的ks和真实的ks有误差。

总结

在实际情况下，我们一般计算违约概率的ks值，这时是不存在NAN值的。所以以上三种方法计算ks值均可。但是当我们计算单变量的ks值时，有时数据质量不好，存在NAN值时，继续采用ks_calc_auc和ks_calc_2samp就会存在问题。

解决办法有两个

1. 提前去除数据中的NAN值

2. 直接采用ks_calc_cross计算。

以上这篇利用Python计算KS的实例详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python
KS

JupyterNotebook设置Python环境的方法步骤
这篇文章主要介绍了JupyterNotebook设置Python环境的方法步骤，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-12-12
Python格式化输出字符串方法小结【%与format】
这篇文章主要介绍了Python格式化输出字符串方法,结合实例形式总结分析了使用%与format函数进行字符串格式化操作相关实现技巧与注意事项,需要的朋友可以参考下
2018-10-10
Django与pyecharts结合的实例代码
这篇文章主要介绍了Django与pyecharts结合的实例代码，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
如何处理Python3.4 使用pymssql 乱码问题
这篇文章主要介绍了如何处理Python3.4 使用pymssql 乱码问题的相关资料，涉及到python pymssql相关知识，对此感兴趣的朋友一起学习吧
2016-01-01
Python中读取和加解密PDF文件的详细教程
在Python中读取和加密PDF文件是一项常见且实用的任务,尤其对于需要处理大量文档自动化处理的场景,本文将详细介绍如何使用Python读取PDF文件内容以及如何使用不同的库来给PDF文件加密,需要的朋友可以参考下
2024-08-08
python3连接mysql获取ansible动态inventory脚本
Ansible Inventory 是包含静态 Inventory 和动态 Inventory 两部分的，静态 Inventory 指的是在文件中指定的主机和组，动态 Inventory 指通过外部脚本获取主机列表。这篇文章主要介绍了python3连接mysql获取ansible动态inventory脚本,需要的朋友可以参考下
2020-01-01
Python Numpy运行报错IndexError与形状不匹配的问题解决办法
在使用Numpy进行数据处理和科学计算时,IndexError和形状不匹配（Shape Mismatch）是常见的错误类型,这些错误通常发生在数组索引操作、数组运算或数组重塑时,本文将通过一个具体的例子来详细分析这些错误的原因和解决办法,需要的朋友可以参考下
2024-07-07
Python 虚拟环境的价值和常用命令详解
在实际项目开发中，我们通常会根据自己的需求去下载各种相应的框架库，如Scrapy、Beautiful Soup等，但是可能每个项目使用的框架库并不一样，或使用框架的版本不一样，今天给大家分享下Python 虚拟环境的价值和常用命令，感兴趣的朋友一起看看吧
2022-05-05
Python导入父文件夹中模块并读取当前文件夹内的资源
这篇文章主要给大家介绍了关于Python导入父文件夹中模块并读取当前文件夹内资源的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-11-11
python并发编程之多进程、多线程、异步和协程详解
本篇文章详细的介绍了python并发编程之多进程、多线程、异步和协程，对初学python有一定的了解作用，需要的朋友可以参考下。
2016-10-10

利用Python计算KS的实例详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具