时间序列 - 自动回归
对于平稳时间序列,自回归模型将变量在时间"t"的值视为值"p"时间步长的线性函数。 数学上可以写成 −
$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$
其中,'p'为自回归趋势参数
$\epsilon_{t}$ 是白噪声,并且
$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ 表示以前时间段的变量值。
p 的值可以使用各种方法进行校准。 找到"p"的合适值的一种方法是绘制自相关图。
注意 − 在对数据进行任何分析之前,我们应该以 8:2 的总数据比率将数据分成训练和测试,因为测试数据只是为了找出我们模型的准确性,假设是,直到我们无法使用它 在做出预测之后。 在时间序列的情况下,数据点的顺序非常重要,因此应记住在数据拆分过程中不要丢失顺序。
自相关图或相关图显示了变量与其自身在先前时间步长的关系。 它利用了 Pearson 的相关性,并显示了 95% 置信区间内的相关性。 让我们看看我们数据的"温度"变量的样子。
显示 ACP
In [141]:
split = len(df) - int(0.2*len(df)) train, test = df['T'][0:split], df['T'][split:]
In [142]:
from statsmodels.graphics.tsaplots import plot_acf plot_acf(train, lags = 100) plt.show()
假设位于阴影蓝色区域之外的所有滞后值都具有互相关性。