使用 OLS 摘要解释线性回归结果
线性回归方法将一个或多个独立变量与因变量进行比较。它将允许您查看独立变量的变化如何影响因变量。全面的 Python 模块 Statsmodels 提供了全方位的统计建模功能,包括线性回归。在这里,我们将了解如何分析 Statsmodels 提供的线性回归摘要输出。
使用 Statsmodels 构建线性回归模型后,您可以获得结果摘要。摘要输出提供有关模型拟合优度、系数估计、统计显着性和其他关键指标的深刻见解。摘要输出的第一部分重点介绍模型的整体拟合度。以下是需要考虑的主要指标 -
通过使用 R 平方 (R2) 统计量,它可以测量独立变量在因变量中占了多少方差。0 表示拟合度好,1 表示拟合度更高。
R 平方根据样本大小和预测变量数进行了调整,为您提供了对模型拟合优度的更保守的估计。
F 统计量检查模型的整体相关性。它确定所有独立变量的总系数是否在解释因变量方面具有重要意义。F 统计量用于确定模型的相关性。它确定所有独立因素的总系数是否充分解释因变量。每个独立变量的斜率都用一个系数表示。这表明预测因子与因变量的关联强度和关联方向。
系数
这些系数代表每个独立变量的估计斜率 ()。它们显示了预测因子与因变量之间关联的强度和方向。
标准误差 - 标准误差量化了每个系数估计值的不确定程度。标准误差越大,估计值越不准确。
T 值 - t 值是通过从标准误差中减去系数估计值得出的。它们评估系数的统计意义。较大的绝对 t 值(t 值大于 2)通常表明独立变量和因变量之间存在显著相关性。
p 值 − 如果零假设(无联系)为真,则根据与 t 值相关的 p 值,系数估计值很可能不会被看到。较低的 p 值(通常低于 0.05)表明存在统计学上的显著联系。
其他诊断 − 摘要输出还提供更多详细信息以评估模型的基本假设并发现任何潜在问题 −
Durbin-Watson 统计量 − 此测试确定模型是否包含自相关或误差项之间的依赖关系。 0 到 2 之间的值表示不存在任何有意义的自相关。
Omnibus 和 Prob(Omnibus) 检验假设误差项为正态。较低的 Prob(Omnibus) p 值表示偏离正态性。
Jarque-Bera 和 Prob(JB) 检验进一步评估正态性假设。较低的 Prob(JB) p 值也表明偏离正态性。
条件数 - 此指标评估回归系数对数据中微小变化的敏感程度。较大的条件数表示独立变量之间存在多重共线性(高相关性)。
# 导入所需库 import warnings warnings.filterwarnings('ignore') import numpy as np import pandas as pd import statsmodels.api as sm # 读取数据 data = pd.read_csv("data.csv") # 分离独立变量 (X) 和因变量 (y) X = data[['X1', 'X2', 'X3', 'X4', 'X5']] y = data['Y'] # 为 X 添加一个常数以进行截距 X = sm.add_constant(X) # 拟合多元线性回归模型 model = sm.OLS(y, X).fit() # 打印回归结果摘要 print(model.summary())
回归模型试图理解链接独立变量和因变量之间的差异。各种统计数据都用于评估模型的性能。
R 平方统计量计算因变量和独立变量之间的变异性。R 平方值越高,表示模型越能拟合数据,这说明独立变量在因变量中占方差的比例越大。
调整后的 R 平方考虑了样本大小和独立因素的数量来计算调整后的 R 平方。它有助于惩罚无关变量的插入。当模型拟合良好且仅包含重要的独立变量时,调整后的 R 平方值通常更大。
F 统计量评估回归模型的整体重要性。它确定独立因素对因变量的综合影响是否具有统计显著性。 p 值小于 0.05 表明该模型具有统计学意义,这意味着独立因素对因变量有显著影响。
这些统计数据有助于我们评估回归模型在描述独立变量和因变量之间关系方面的可靠性和重要性。
结论
了解变量之间的联系并确定模型的有效性需要解释线性回归模型的摘要输出。R 平方、系数估计、标准误差、t 值和 p 值是一些重要的指标,需要查看这些指标才能了解每个独立变量的重要性和影响。摘要报告还提供诊断功能以发现任何有问题的假设或多重共线性问题。您可以使用 Statsmodels 有效地分析和评估线性回归模型,从而根据结果做出合理的判断。