时间序列 - 自动回归

对于平稳时间序列,自回归模型将变量在时间"t"的值视为值"p"时间步长的线性函数。 数学上可以写成 −

$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$

 

其中,'p'为自回归趋势参数

$\epsilon_{t}$ 是白噪声,并且

$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ 表示以前时间段的变量值。

p 的值可以使用各种方法进行校准。 找到"p"的合适值的一种方法是绘制自相关图。

注意 − 在对数据进行任何分析之前,我们应该以 8:2 的总数据比率将数据分成训练和测试,因为测试数据只是为了找出我们模型的准确性,假设是,直到我们无法使用它 在做出预测之后。 在时间序列的情况下,数据点的顺序非常重要,因此应记住在数据拆分过程中不要丢失顺序。

自相关图或相关图显示了变量与其自身在先前时间步长的关系。 它利用了 Pearson 的相关性,并显示了 95% 置信区间内的相关性。 让我们看看我们数据的"温度"变量的样子。


显示 ACP

In [141]:

split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]

In [142]:

from statsmodels.graphics.tsaplots import plot_acf

plot_acf(train, lags = 100)
plt.show()
代码片段 9

假设位于阴影蓝色区域之外的所有滞后值都具有互相关性。