数据科学- 回归表:P值
回归表中的 "系数部分的统计"
现在,我们要测试线性回归函数的系数是否对因变量 (Calorie_Burnage) 有显着影响。
这意味着我们要使用统计测试来证明 Average_Pulse 和 Calorie_Burnage 之间存在关系。
解释系数统计的成分有四个:
- std err 代表标准错误
- t 是系数的"t值"
- P>|t| 被称为"P值"
- [0.025 0.975]表示系数的置信区间
我们将重点了解本模块中的 "P 值"。
P 值
P 值是一个统计数字,用于推断 Average_Pulse 和 Calorie_Burnage 之间是否存在关系。
我们测试系数的真实值是否等于零(无关系)。 对此的统计检验称为假设检验。
- 低 P 值 (< 0.05) 意味着系数可能不等于零。
- 高 P 值 (> 0.05) 意味着我们无法得出解释变量影响因变量的结论(此处:如果 Average_Pulse 影响 Calorie_Burnage)。
- 高 P 值也称为不显着的 P 值。
假设检验
假设检验是一种统计程序,用于检验您的结果是否有效。
在我们的示例中,我们正在测试 Average_Pulse 的真实系数和截距是否等于 0。
假设检验有两个陈述。 原假设和备择假设。
- 原假设可以简写为 H0
- 备择假设可以简写为 HA
数学写法:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0
标志 ≠ 表示 "不等于"
假设检验和 P 值
原假设可以被拒绝,也可以不被拒绝。
如果我们拒绝原假设,我们会得出结论,Average_Pulse 和 Calorie_Burnage 之间存在关系。 此结论使用 P 值。
P 值的常见阈值是 0.05。
注意: P 值为 0.05 意味着 5% 的时间,我们会错误地拒绝原假设。 这意味着我们接受 5% 的情况下,我们可能错误地缔结了一段关系。
如果 P 值低于 0.05,我们可以拒绝原假设并得出变量之间存在关系的结论。
但是,Average_Pulse 的 P 值为 0.824。 因此,我们无法得出 Average_Pulse 和 Calorie_Burnage 之间的关系。
表示Average_Pulse的真实系数为0的概率为82.4%。
截距用于调整回归函数更精确地预测的能力。 因此,解释截距的 P 值并不常见。