机器学习中的多元线性回归
简介
多元线性回归是关键的回归技术之一,它模拟一个连续因变量与多个自变量之间的线性关系。
存在两类线性回归算法 −
简单−仅处理两个特征。
多重−一次处理两个以上的特征。
让我们在本文中详细研究多元线性回归。
多元线性回归
多元线性回归是一种经常使用的预测分析方式。您可以使用这种分析来理解这种连续因变量与两个或多个独立变量之间的关系。
独立变量可能是分类的,也可能是连续的,例如年龄和身高(如性别和职业)。 重要的是要记住,在进行分析之前,如果给定的因变量是分类的,则应该对其进行伪代码处理。
公式和计算
多元回归分析允许同时控制影响因变量的几个因素。 可以使用回归分析检查独立变量和因变量之间的联系。
让 k 代表字母 x1、x2、x3…xk 表示的变量数量。
要使用此策略,我们必须假设我们有 k 个可以设置的独立变量。然后,这些变量将概率地决定结果 Y。
此外,我们假设 Y 直接依赖于变量,因为
Y = β0 + β1x1 + β2x2 + · · · + βkxk + ε
它取决于或预计变量 yi
y 截距决定 y 的斜率,因此当 xi 和 x2 都为零时,y 将为 0。
导致 y 变化的 xi1 和 xi2 的一个单位变化由回归系数 1 和 2 表示。
所有独立变量的斜率系数都用符号表示p。
模型中的随机误差(残差)用短语描述。
除了要求 k 不等于 1 之外,这与简单线性回归相同,其中是标准误差。
我们有超过 k 个观测值,n 通常会高得多。
我们测量随机变量 Yi 的值 yi,并将独立变量分配给第 i 个观测值 xi1、xi2...、xik。
因此,这些方程可用于描述模型。
Yi = β0 + β1xi1 + β2xi2 + · · · + βkxik + i,其中 i = 1、2、... , n
其中误差 i 是单独的标准变量,具有相同的未知方差 2 和平均值 0。
线性回归和多元回归之间的差异
在预测复杂过程的结果时,多元线性回归比基本线性回归更可取。
简单关系中两个变量之间的关系可以通过简单线性回归精确捕捉。然而,多元线性回归可以识别需要更深入分析的更复杂的相互作用。
多元回归模型中使用多个独立变量。它可以匹配曲线和非线性连接,因为它不受与简单回归方程相同的问题约束。多元线性回归的用途如下。
控制和规划。
预测或预报
估计变量之间的关系可能非常有趣且有帮助。多元回归模型根据变量预测因变量值的能力来评估变量之间的关系,就像所有其他回归模型一样。
示例
import numpy as nm import matplotlib.pyplot as pylt import pandas as ps dataset = ps.read_csv('https://raw.githubusercontent.com/mkgurucharan/Regression/master/Startups_Data.csv') X1 = dataset.iloc[:, :-1].values y = dataset.iloc[:, -1].values from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OneHotEncoder ctlo = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough') X1 = nm.array(ctlo.fit_transform(X1)) print(X1) from sklearn.model_selection import train_test_split X1_train, X1_test, y_train, y_test = train_test_split(X1, y, test_size = 0.2) from sklearn.linear_model import LinearRegression regressor_one = LinearRegression() regressor_one.fit(X1_train, y_train) y_pred = regressor.predict(X1_test) df = ps.DataFrame({'Real Values':y_test, 'Predicted Values':y_pred}) df
输出
Predicted Values has a value of 74963.60
MLR 图表看起来像
MLR 的使用
当我们想使用多个独立变量预测因变量时,我们会利用多元回归。普通线性平方 (OLS) 回归与多元回归是同一种回归。另一方面,通过根据解释因素值的变化对比这些变量的分布,OLS 回归可以确定解释变量对连续因变量的影响。
MLR 允许同时使用多个解释变量。因此,如果实施了特定的修改,您可以更准确地估计数据会发生什么变化。
确保数据满足以下五个要求,以确保其适合线性回归分析 -
连接因变量和自变量的直线
自变量之间没有太大的相关性。
残差的方差始终相同。
观察的公正性(即,每个观察结果都应该独立收集)。
多变量同质性(即,所有变量都应呈正态分布)。
结论
为了模拟涉及两个或多个自变量和第一个因变量的更复杂的关联,多元线性回归是一种统计方法。当有两个或更多 x 变量时,就会使用它。