Python使用VIF实现检测多重共线性

更新时间：2023年12月26日 11:37:13 作者：python收藏家

多重共线性是指多元回归模型中有两个或两个以上的自变量,它们之间具有高度的相关性,本文主要介绍了如何使用VIF实现检测多重共线性,需要的可以参考下

多重共线性是指多元回归模型中有两个或两个以上的自变量，它们之间具有高度的相关性。当某些特征高度相关时，我们可能很难区分它们对因变量的个体影响。多重共线性可以使用各种技术来检测，其中一种技术是方差膨胀因子（VIF）。

在VIF方法中，我们选择每个特征并将其与所有其他特征进行回归。对于每个回归，因子计算如下：

其中，R平方是线性回归中的决定系数。它的值介于0和1之间。

正如我们从公式中看到的，R平方的值越大，VIF越大。因此，VIF越大，相关性越强。这与较高的R平方值表示较强的共线性的事实一致。通常，VIF高于5表示高多重共线性。

使用statmodels实现VIF

statsmodels提供了一个名为variance_inflation_factor()的函数来计算VIF。

语法：statmodels.stats.outliers_influence.variance_inflation_factor（exog，exog_idx）

主要参数：

exog：一个数组，包含对其执行线性回归的特征。

exog_idx：要测量其对其他特征的影响的附加特征的索引。

示例

下例中使用的数据集包含500人的身高、体重、性别和体重指数。这里的因变量是指数。

import pandas as pd  
  
# the dataset   
data = pd.read_csv('BMI.csv') 
  
# printing first few rows 
print(data.head())

输出

Gender Height Weight Index
0 Male 174 96 4
1 Male 189 87 2
2 Female 185 110 4
3 Female 195 104 3
4 Male 149 61 3

方法

每个特征索引都被传递给variance_inflation_factor()以找到相应的VIF。

这些值以Pandas DataFrame的形式存储。

from statsmodels.stats.outliers_influence import variance_inflation_factor 

# creating dummies for gender 
data['Gender'] = data['Gender'].map({'Male':0, 'Female':1}) 

# the independent variables set 
X = data[['Gender', 'Height', 'Weight']] 

# VIF dataframe 
vif_data = pd.DataFrame() 
vif_data["feature"] = X.columns 

# calculating VIF for each feature 
vif_data["VIF"] = [variance_inflation_factor(X.values, i) 
						for i in range(len(X.columns))] 

print(vif_data)

输出

feature VIF
0 Gender 2.028864
1 Height 11.623103
2 Weight 10.688377

正如我们所看到的，身高和体重具有非常高的VIF值，表明这两个变量高度相关。这是预料之中的，因为一个人的身高确实会影响他们的体重。因此，将这两个特征一起考虑会导致具有高多重共线性的模型。

到此这篇关于Python使用VIF实现检测多重共线性的文章就介绍到这了,更多相关Python检测多重共线性内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python数据预处理 :数据共线性处理详解

Python生成rsa密钥对操作示例
这篇文章主要介绍了Python生成rsa密钥对操作,涉及Python rsa加密与密钥生成相关操作技巧,需要的朋友可以参考下
2019-04-04
Python实现的批量下载RFC文档
这篇文章主要介绍了Python实现的批量下载RFC文档,本文直接给出实现代码,需要的朋友可以参考下
2015-03-03
使用C语言扩展Python程序的简单入门指引
这篇文章主要介绍了使用C语言扩展Python程序的简单入门指引,来自于IBM官网网站技术文档,需要的朋友可以参考下
2015-04-04
python tornado上传文件功能实现(前端和后端)
Tornado 是一个功能强大的 Web 框架,除了基本的请求处理能力之外,还提供了一些高级功能,在 Tornado web 框架中,上传图片通常涉及创建一个表单,让用户选择文件并上传,本文介绍tornado上传文件功能,感兴趣的朋友一起看看吧
2024-03-03
pandas进行时间数据的转换和计算时间差并提取年月日
这篇文章主要介绍了pandas进行时间数据的转换和计算时间差并提取年月日，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
Python 实现大整数乘法算法的示例代码
这篇文章主要介绍了Python 实现大整数乘法算法的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-09-09
python读取excel数据并且画图的实现示例
这篇文章主要介绍了python读取excel数据并且画图的实现示例，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2021-02-02
Python爬虫批量爬取下载抖音视频代码实例
这篇文章主要介绍了Python爬虫批量爬取下载抖音视频代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
python des,aes,rsa加解密的实现
这篇文章主要介绍了python des,aes,rsa加解密的实现，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2021-01-01
Python处理Excel文件实例代码
本篇文章主要介绍了Python处理Excel文件实例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-06-06

Python使用VIF实现检测多重共线性

目录

使用statmodels实现VIF

示例

方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具