Python数学建模StatsModels统计回归模型数据的准备

更新时间：2021年10月18日 16:54:10 作者：youcans

这篇文章主要介绍了Python数学建模StatsModels统计回归模型数据的准备学习，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步

1、读取数据文件

回归分析问题所用的数据都是保存在数据文件中的，首先就要从数据文件读取数据。

数据文件的格式很多，最常用的是 .csv，.xls 和 .txt 文件，以及 sql 数据库文件的读取。

使用 pandas 从数据文件导入数据的程序最为简单，示例如下：

（1）读取 .csv 文件：

    df = pd.read_csv("./example.csv", engine="python", encoding="utf_8_sig")
    # engine="python"允许处理中文路径，encoding="utf_8_sig"允许读取中文数据

（2）读取 .xls 文件：

df = pd.read_excel("./example.xls", sheetname='Sheet1', header=0, encoding="utf_8_sig")
    # sheetname 表示读取的sheet，header=0 表示首行为标题行， encoding 表示编码方式

（3）读取 .txt 文件：

    df = pd.read_table("./example.txt", sep="\t", header=None)
    # sep 表示分隔符，header=None表示无标题行，第一行是数据

2、数据文件的拆分与合并

统计回归所需处理的数据量可能非常大，必要时需对文件进行拆分或合并，也可以用 pandas 进行处理，示例如下：

（1）将 Excel 文件分割为多个文件

    # 将 Excel 文件分割为多个文件
    import pandas as pd
    dfData = pd.read_excel('./example.xls', sheetname='Sheet1')
    nRow, nCol = dfData.shape  # 获取数据的行列
    # 假设数据共有198,000行，分割为 20个文件，每个文件 10,000行
    for i in range(0, int(nRow/10000)+1):
        saveData = dfData.iloc[i*10000+1:(i+1)*10000+1, :]  # 每隔 10,000
        fileName= './example_{}.xls'.format(str(i))
        saveData.to_excel(fileName, sheet_name = 'Sheet1', index = False)

（2）将多个 Excel 文件合并为一个文件

    # 将多个 Excel 文件合并为一个文件
    import pandas as pd
    ## 两个 Excel 文件合并
    #data1 = pd.read_excel('./example0.xls', sheetname='Sheet1')
    #data2 = pd.read_excel('./example1.xls', sheetname='Sheet1')
    #data = pd.concat([data1, data2])
    # 多个 Excel 文件合并
    dfData = pd.read_excel('./example0.xls', sheetname='Sheet1')
    for i in range(1, 20):
        fileName = './example_{}.xls'.format(str(i))
        dfNew = pd.read_excel(fileName)
        dfData = pd.concat([dfData, dfNew])
    dfData.to_excel('./example', index = False)
    # = 关注 Youcans，分享原创系列 https://blog.csdn.net/youcans =

3、数据的预处理

在实际工作中，在开始建立模型和拟合分析之前，还要对原始数据进行数据预处理（data preprocessing），主要包括：缺失值处理、重复数据处理、异常值处理、变量格式转换、训练集划分、数据的规范化、归一化等。

数据预处理的很多内容已经超出了 Statsmodels 的范围，在此只介绍最基本的方法：

（1）缺失数据的处理

导入的数据存在缺失是经常发生的，最简单的处理方式是删除缺失的数据行。使用 pandas 中的 .dropna() 删除含有缺失值的行或列，也可以对特定的列进行缺失值删除处理。

    dfNew = dfData.dropna(axis = 0))  # 删除含有缺失值的行

有时也会填充缺失值或替换缺失值，在此就不做介绍了。　

（2）重复数据的处理

对于重复数据，通常会删除重复行。使用 pandas 中的 .duplicated() 可以查询重复数据的内容，使用 .drop_duplicated() 可以删除重复数据，也可以对指定的数据列进行去重。

    dfNew = dfData.drop_duplicates(inplace=True)  # 删除重复的数据行

（3）异常值处理

数据中可能包括异常值，是指一个样本中的数值明显偏离样本集中其它样本的观测值，也称为离群点。异常值可以通过箱线图、正态分布图进行识别，也可以通过回归、聚类建模进行识别。

箱线图技术是利用数据的分位数识别其中的异常点。箱形图分析也超过本文的内容，不能详细介绍了。只能笼统地说通过观察箱形图，可以查看整体的异常情况，进而发现异常值。

    dfData.boxplot()  # 绘制箱形图

对于异常值通常不易直接删除，需要结合具体情况进行考虑和处理。使用 pandas 中的 .drop() 可以直接删除异常值数据行，或者使用判断条件来判定并删除异常值数据行。

    # 按行删除，drop() 默认 axis=0 按行删除
    dfNew = dfData.drop(labels=0)   # 按照行号 labels，删除 行号为 0 的行
    dfNew = dfData.drop(index=dfData[dfData['A']==-1].index[0])   # 按照条件检索，删除 dfData['A']=-1 的行

4、Python 例程（Statsmodels）

4.1 问题描述

数据文件中收集了 30个月本公司牙膏销售量、价格、广告费用及同期的市场均价。
　　（1）分析牙膏销售量与价格、广告投入之间的关系，建立数学模型；
　　（2）估计所建立数学模型的参数，进行统计分析；
　　（3）利用拟合模型，预测在不同价格和广告费用下的牙膏销售量。

本问题及数据来自：姜启源、谢金星，数学模型（第 3版），高等教育出版社。
需要说明的是，本文例程并不是问题最佳的求解方法和结果，只是使用该问题及数据示范读取数据文件和数据处理的方法。

4.2 Python 程序

# LinearRegression_v3.py
# v1.0: 调用 statsmodels 实现一元线性回归
# v2.0: 调用 statsmodels 实现多元线性回归
# v3.0: 从文件读取数据样本
# 日期：2021-05-06
# Copyright 2021 YouCans, XUPT
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
def main():
    # 读取数据文件
    readPath = "../data/toothpaste.csv"  # 数据文件的地址和文件名
    try:
        if (readPath[-4:] == ".csv"):
            dfOpenFile = pd.read_csv(readPath, header=0, sep=",")  # 间隔符为逗号，首行为标题行
            # dfOpenFile = pd.read_csv(filePath, header=None, sep=",")  # sep: 间隔符，无标题行
        elif (readPath[-4:] == ".xls") or (readPath[-5:] == ".xlsx"):  # sheet_name 默认为 0
            dfOpenFile = pd.read_excel(readPath, header=0)  # 首行为标题行
            # dfOpenFile = pd.read_excel(filePath, header=None)  # 无标题行
        elif (readPath[-4:] == ".dat"):  # sep: 间隔符，header：首行是否为标题行
            dfOpenFile = pd.read_table(readPath, sep=" ", header=0)  # 间隔符为空格，首行为标题行
            # dfOpenFile = pd.read_table(filePath,sep=",",header=None) # 间隔符为逗号，无标题行
        else:
            print("不支持的文件格式。")
        print(dfOpenFile.head())
    except Exception as e:
        print("读取数据文件失败：{}".format(str(e)))
        return
    # 数据预处理
    dfData = dfOpenFile.dropna()  # 删除含有缺失值的数据
    print(dfData.dtypes)  # 查看 df 各列的数据类型
    print(dfData.shape)  # 查看 df 的行数和列数
    # colNameList = dfData.columns.tolist()  # 将 df 的列名转换为列表 list
    # print(colNameList)  # 查看列名列表 list
    # featureCols = ['price', 'average', 'advertise', 'difference']  # 筛选列，建立自变量列名 list
    # X = dfData[['price', 'average', 'advertise', 'difference']]  # 根据自变量列名 list，建立 自变量数据集
    # 准备建模数据：分析因变量 Y(sales) 与 自变量 x1~x4  的关系
    y = dfData.sales  # 根据因变量列名 list，建立 因变量数据集
    x0 = np.ones(dfData.shape[0])  # 截距列 x0=[1,...1]
    x1 = dfData.price  # 销售价格
    x2 = dfData.average  # 市场均价
    x3 = dfData.advertise  # 广告费
    x4 = dfData.difference  # 价格差，x4 = x1 - x2
    X = np.column_stack((x0,x1,x2,x3,x4))  #[x0,x1,x2,...,x4]
    # 建立模型与参数估计
    # Model 1：Y = b0 + b1*X1 + b2*X2 + b3*X3 + b4*X4 + e
    model = sm.OLS(y, X)  # 建立 OLS 模型
    results = model.fit()  # 返回模型拟合结果
    yFit = results.fittedvalues  # 模型拟合的 y 值
    print(results.summary())  # 输出回归分析的摘要
    print("\nOLS model: Y = b0 + b1*X + ... + bm*Xm")
    print('Parameters: ', results.params)  # 输出：拟合模型的系数
    # 拟合结果绘图
    fig, ax = plt.subplots(figsize=(10, 8))
    ax.plot(range(len(y)), y, 'bo', label='sample')
    ax.plot(range(len(yFit)), yFit, 'r--', label='predict')
    ax.legend(loc='best')  # 显示图例
    plt.show()  # YouCans, XUPT
    return
if __name__ == '__main__':
    main()

4.3 程序运行结果：

   period  price  average  advertise  difference  sales
0       1   3.85     3.80       5.50       -0.05   7.38
1       2   3.75     4.00       6.75        0.25   8.51
2       3   3.70     4.30       7.25        0.60   9.52
3       4   3.70     3.70       5.50        0.00   7.50
4       5   3.60     3.85       7.00        0.25   9.33
OLS Regression Results                            
==============================================================================
Dep. Variable:                  sales   R-squared:                       0.895
Model:                            OLS   Adj. R-squared:                  0.883
Method:                 Least Squares   F-statistic:                     74.20
Date:                Fri, 07 May 2021   Prob (F-statistic):           7.12e-13
Time:                        11:51:52   Log-Likelihood:                 3.3225
No. Observations:                  30   AIC:                             1.355
Df Residuals:                      26   BIC:                             6.960
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          8.0368      2.480      3.241      0.003       2.940      13.134
x1            -1.1184      0.398     -2.811      0.009      -1.936      -0.300
x2             0.2648      0.199      1.332      0.195      -0.144       0.674
x3             0.4927      0.125      3.938      0.001       0.236       0.750
x4             1.3832      0.288      4.798      0.000       0.791       1.976
==============================================================================
Omnibus:                        0.141   Durbin-Watson:                   1.762
Prob(Omnibus):                  0.932   Jarque-Bera (JB):                0.030
Skew:                           0.052   Prob(JB):                        0.985
Kurtosis:                       2.885   Cond. No.                     2.68e+16
==============================================================================
OLS model: Y = b0 + b1*X + ... + bm*Xm
Parameters:  const    8.036813
x1      -1.118418
x2       0.264789
x3       0.492728
x4       1.383207

在这里插入图片描述

版权说明：

本问题及数据来自：姜启源、谢金星，数学模型（第 3版），高等教育出版社
本文内容及例程为作者原创，并非转载书籍或网络内容。

以上就是Python数学建模StatsModels统计回归模型数据的准备的详细内容，更多关于数学建模StatsModels统计回归模型数据准备的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python cookbook(数据结构与算法)对切片命名清除索引的方法
这篇文章主要介绍了Python cookbook(数据结构与算法)对切片命名清除索引的方法,结合实例形式分析了Python字符串截取及indices方法映射序列的相关操作技巧,需要的朋友可以参考下
2018-03-03
Django实现静态文件缓存到云服务的操作方法
这篇文章主要介绍了Django实现静态文件缓存到云服务的操作方法,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-08-08
PyQt5 对图片进行缩放的实例
今天小编就为大家分享一篇PyQt5 对图片进行缩放的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
Python编码类型转换方法详解
这篇文章主要介绍了Python编码类型转换方法,结合实例形式详细分析了Python针对各种常见编码的转码与解码等操作技巧,需要的朋友可以参考下
2016-07-07
Sublime Text4 配置 Python3 环境、代码提示、编译报错的解决方案
这篇文章主要介绍了Sublime Text4 配置 Python3 环境、代码提示、编译报错教程,通过图文并茂的形式给大家介绍了配置自动代码提示的方法，需要的朋友可以参考下
2022-01-01
Python桌面应用开发实战之PyQt的安装使用
这篇文章主要给大家介绍了关于Python桌面应用开发实战之PyQt的安装使用,PyQt是一个功能强大的Python库,用于创建图形用户界面(GUI)应用程序,需要的朋友可以参考下
2023-08-08
Python如何利用Har文件进行遍历指定字典替换提交的数据详解
这篇文章主要给大家介绍了关于Python如何利用Har文件进行遍历指定字典替换提交的数据的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-11-11
Django框架 querySet功能解析
这篇文章主要介绍了Django框架 querySet功能解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09
人脸检测实战终极之OpenCV+Python实现人脸对齐
这篇文章主要是为了演示如何使用 OpenCV、Python 和面部标志从而实现对齐人脸。文中示例代码对我们的工作或学习有一定的帮助，感兴趣的小伙伴可以学习一下
2021-12-12
基于python 字符编码的理解
下面小编就为大家带来一篇基于python 字符编码的理解。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-09-09

Python数学建模StatsModels统计回归模型数据的准备

目录

1、读取数据文件

（1）读取 .csv 文件：

（2）读取 .xls 文件：

（3）读取 .txt 文件：

2、数据文件的拆分与合并

（1）将 Excel 文件分割为多个文件

（2）将多个 Excel 文件合并为一个文件

3、数据的预处理

（1）缺失数据的处理

（2）重复数据的处理

（3）异常值处理

4、Python 例程（Statsmodels）

4.1 问题描述

4.2 Python 程序

4.3 程序运行结果：

版权说明：

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具

Python数学建模StatsModels统计回归模型数据的准备

目录

1、读取数据文件

（1）读取 .csv 文件：

（2）读取 .xls 文件：

（3）读取 .txt 文件：

2、数据文件的拆分与合并

（1）将 Excel 文件分割为多个文件

（2）将 多个 Excel 文件合并为一个文件

3、数据的预处理

（1）缺失数据的处理

（2）重复数据的处理

（3）异常值处理

4、Python 例程（Statsmodels）

4.1 问题描述

4.2 Python 程序

4.3 程序运行结果：

版权说明：

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具

（2）将多个 Excel 文件合并为一个文件