数据科学- 回归表:P值

回归表中的 "系数部分的统计"

Regression Table - Stats of Coefficients

现在,我们要测试线性回归函数的系数是否对因变量 (Calorie_Burnage) 有显着影响。

这意味着我们要使用统计测试来证明 Average_Pulse 和 Calorie_Burnage 之间存在关系。

解释系数统计的成分有四个:

  • std err 代表标准错误
  • t 是系数的"t值"
  • P>|t| 被称为"P值"
  • [0.025  0.975]表示系数的置信区间

我们将重点了解本模块中的 "P 值"。


P 值

P 值是一个统计数字,用于推断 Average_Pulse 和 Calorie_Burnage 之间是否存在关系。

我们测试系数的真实值是否等于零(无关系)。 对此的统计检验称为假设检验。

  • 低 P 值 (< 0.05) 意味着系数可能不等于零。
  • 高 P 值 (> 0.05) 意味着我们无法得出解释变量影响因变量的结论(此处:如果 Average_Pulse 影响 Calorie_Burnage)。
  • 高 P 值也称为不显着的 P 值。

假设检验

假设检验是一种统计程序,用于检验您的结果是否有效。

在我们的示例中,我们正在测试 Average_Pulse 的真实系数和截距是否等于 0。

假设检验有两个陈述。 原假设和备择假设。

  • 原假设可以简写为 H0
  • 备择假设可以简写为 HA

数学写法:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

标志 ≠ 表示 "不等于"


假设检验和 P 值

原假设可以被拒绝,也可以不被拒绝。

如果我们拒绝原假设,我们会得出结论,Average_Pulse 和 Calorie_Burnage 之间存在关系。 此结论使用 P 值。

P 值的常见阈值是 0.05。

注意: P 值为 0.05 意味着 5% 的时间,我们会错误地拒绝原假设。 这意味着我们接受 5% 的情况下,我们可能错误地缔结了一段关系。

如果 P 值低于 0.05,我们可以拒绝原假设并得出变量之间存在关系的结论。

但是,Average_Pulse 的 P 值为 0.824。 因此,我们无法得出 Average_Pulse 和 Calorie_Burnage 之间的关系。

表示Average_Pulse的真实系数为0的概率为82.4%。

截距用于调整回归函数更精确地预测的能力。 因此,解释截距的 P 值并不常见。