了解回归的几何解释

machine learningpythondata science

回归分析是检验两个或多个变量之间联系最常用的统计方法之一。它是预测和模拟变量行为的有效工具,可用于经济学、金融学、工程学和社会科学等多个学科。回归分析的几何解释是其最关键的组成部分之一,它揭示了变量之间联系的性质。在本文中,我们将研究回归的几何解释以及如何应用它来理解变量之间的关系。

什么是回归分析?

回归分析是一种统计方法,用于对一组独立变量(也称为预测因子或解释因素)和一组因变量(有时称为响应变量或结果变量)之间的联系进行建模。在回归分析中,人们寻求最准确地描述变量之间联系的曲线或直线。这条直线或曲线可用于根据独立变量的值预测因变量的值。

回归分析可分为两个基本类别:简单线性回归和多元线性回归。基本线性回归中只有一个独立变量,但多元线性回归中有两个或多个独立变量。因变量始终是连续的,这意味着它可以是一系列值之间的任何值。

回归的几何解释

可以使用回归的几何解释来显示变量之间的二维关系。简单线性回归中可以使用直线来描述独立变量 x 和因变量 y 之间的联系。回归线或最大拟合线就是这条线。当以这种方式创建回归线时,残差或每个数据点与回归线之间的空间将最小化。

根据回归线的斜率,独立变量的每个单位变化都会导致因变量 (y) (x) 发生等效变化。如果斜率向上,则因变量会随着自变量值的上升而上升。如果斜率为负,则因变量会下降而自变量会增长。以下公式可用于计算斜率 −

$$\mathrm{slope = (Σ(xy) - n(x)(y)) / (Σ(x^2) - n(x)^2)}$$

其中 n 代表数据点的总数,(xy) 是两个变量 x 和 y 的乘积,(x2) 是 x 的平方值之和,(x)(y) 是 x 和 y 的各个值之和。

回归线的截距显示当自变量等于零时因变量的值。您可以使用公式 −

$$\mathrm{intercept = y - slope(x)}$$

其中独立变量和因变量的均值分别用 x 和 y 表示。

三维空间中的平面可用于多元线性回归,以描述因变量与两个或多个独立变量之间的联系。对于每个独立变量的每个单位变化,因变量都会按回归平面斜率指示的量发生变化。当所有独立变量都等于零时,因变量的值由回归平面的截距表示。

残差图

残差图是检验回归分析假设和发现潜在模型缺陷的有用工具。残差(实际值与预期值之间的差值)在残差图中与独立变量相对应。如果回归模型与数据匹配良好,则残差图应没有任何模式,点应随机分布在横轴周围。如果残差图显示出模式,则可能表明变量之间的关系不是线性的,因变量的方差是异方差的,这意味着它在独立变量的范围内变化,或者存在影响模型的异常值或其他重要点。

判定系数(R 平方)

判定系数,通常称为 R 平方,是衡量回归模型与数据的拟合程度的指标。它表示独立变量解释的因变量变化的分数。 R 平方值从 0 到 1 不等,1 表示完美拟合,0 表示变量之间没有关联。R 平方可以使用以下公式计算 -

$$\mathrm{R 平方 = 1 - (SSres / SStot)}$$

其中 SSres 表示残差平方和,SStot 表示总平方和。R 平方值高表示模型解释了因变量中很大一部分方差,而 R 平方值低表示模型没有解释因变量中很大一部分方差。

回归的几何解释的应用

回归的几何解释提供了广泛的应用。在经济学中,回归分析经常用于模拟两个或多个经济变量之间的关系,例如供需联系或 GDP-通胀关系。回归分析用于金融,以研究资产价格与其他经济因素(如利率或收入)之间的联系。回归分析用于工程,以描述系统或过程中输入和输出变量之间的联系。回归分析用于社会科学,以研究众多社会经济和人口特征与收入、教育和健康等结果之间的联系。

结论

具有几何解释的回归分析为研究两个或多个变量之间的关系提供了有力的工具。它使我们能够在二维或三维空间中看到联系,并计算回归线或平面的斜率和截距。为了验证模型的假设并评估模型的拟合优度,两个有用的工具是残差图和判定系数。回归的几何解释是理解和检查变量之间联系的重要工具,它在各种领域都有多种应用。


相关文章