Section : Prévision
Précédent : Prévision
Suivant : Prédiction pour un processus

Prédiction linéaire : cas général

Soit $ x=(x_t,t\in T)$ une série temporelle qu'on modélise par un processus $ X=(X_t,t\in S)$ avec $ T\subset S$, et de loi paramètrée par $ {\beta}\in {\mathbb{R}}^k$. Soit $ s\in S\setminus T$ un indice de temps pour lequel on ne possède pas de relevé. Prédire $ X_s$, c'est déterminer une variable aléatoire fonction de $ (X_t,t\in T)$ la plus proche possible de $ X_s$. Si l'on mesure la distance entre deux variables par la norme hilbertienne, alors le meilleur prédicteur au sens des moindres carrés est

$\displaystyle P^\bot_{L^2\left(X_t,t\in T\right)}(X_s)={\mathbb{E}}\left[X_s\vert X_t,t\in T\right] $
Cette fonction n'est pas en général calculable (sauf dans le cas gaussien), et l'on préfère se limiter aux fonctions affines de $ \left(X_t,t\in T\right)$. On parle alors de meilleur prédicteur affine au sens des moindres carrés. Il s'agit de
$\displaystyle \check X_T(s)=P^\bot_{V^2\left(1,X_t,t\in T\right)}(X_s)=a_0(s,{\beta})+\sum_{t\in T}a_t(s,{\beta})X_t $
Rappelons que dans le cas d'un processus gaussien on a l'égalité entre $ P^\bot_{V^2\left(1,X_t,t\in T\right)}(X_s)$ et $ P^\bot_{L^2\left(X_t,t\in T\right)}(X_s)$.

Les coefficients $ a_i$ sont caractérisés par le système d'équations

$\displaystyle a_0(s,{\beta})+\sum_{t\in T}a_t(s,{\beta}){\mathbb{E}}[X_t]$ $\displaystyle =$ $\displaystyle {\mathbb{E}}[X_s]$  
$\displaystyle \sum_{t\in T}a_t(s,{\beta})\mathop{\hbox{\upshape {cov}}}\nolimits (X_t,X_u)$ $\displaystyle =$ $\displaystyle \mathop{\hbox{\upshape {cov}}}\nolimits (X_s,X_u)\ \ \forall u\in T$  

Le problème évident est que la variable aléatoire $ P^\bot_{V^2\left(1,X_t,t\in T\right)}(X_s)$ dépend du paramètre $ {\beta}$ en général inconnu, qu'on est donc amené à remplacer par son estimateur $ \hat{\beta}=\hat{\beta}\left(X_t,t\in T\right)$. On obtient ainsi le prédicteur
$\displaystyle \hat X_T(s)=a_0(s,\hat{\beta})+\sum_{t\in T}a_t(s,\hat{\beta})X_t $
L'erreur quadratique commise vaut alors
$\displaystyle \Vert X_T(s)-\hat X_T(s)\Vert_2\leq\Vert X_s-\check X_T(s)\Vert_2+\Vert \check X_T(s)-\hat X_T(s)\Vert_2 $
Le premier terme $ \Vert X_s-\check X_T(s)\Vert_2$ correspond à l'erreur de prédiction pure, le second $ \Vert \check X_T(s)-\hat X_T(s)\Vert_2$ à l'erreur d'estimation. Il est difficile de calculer exactement l'erreur totale, ni même l'erreur d'estimation, sauf dans le cas des modèles linéaires. L'erreur de prédiction pure est en revanche plus simple à déterminer. C'est aussi en général le terme dominant : en effet, les différents résultats de convergence montrent le plus souvent que $ \Vert {\beta}-\hat{\beta}\Vert_2$ est de l'ordre de $ 1/\sqrt{\char93 T}$, dont il suit, par continuité, qu'il en est de même pour l'erreur d'estimation. Comme nous le verrons, il n'en est pas de même pour l'erreur de prédiction pure, que dans la pratique on est amené à confondre avec l'erreur totale commise.

Section : Prévision
Précédent : Prévision
Suivant : Prédiction pour un processus

Thierry Cabanal-Duvillard