Section : Modèles linéaires
Précédent : Exemple.
Suivant : Remarques :

Détection des valeurs aberrantes

Soit $ x=(x_t)_{t\in{\cal T}}$ une série temporelle, pour laquelle on a élaboré un modèle stochastique $ X=(X_t)_{t\in{\cal T}}$. Si le modèle est linéaire, alors quel que soit $ t\in{\cal T}$, $ X_t=f(t,{\beta})+{\varepsilon}_t$ avec $ f$ linéaire en $ {\beta}\in{\mathbb{R}}^p$ et $ {\varepsilon}=({\varepsilon}_t)_{t\in{\cal T}}$ un bruit blanc de variance $ {\sigma}^2$. On note $ \hat X=(\hat X_t=f(t,\hat{\beta}))_{t\in{\cal T}}$, avec $ \hat{\beta}$ l'estimateur des moindres carrés de $ {\beta}$ ; $ \hat X_t$ est l'estimateur des moindres carrés de $ {\mathbb{E}}[X_t]=f(t,{\beta})$ ; c'est l'estimation de la partie déterministe du modèle. Par $ \hat x_t$, on entendra la valeur de $ \hat X_t$ donnée par l'application numérique. C'est la partie de la série initiale expliquée par le modèle, celle qu'il permet de prévoir.

Soit $ t_0\in{\cal T}$. On dira que $ x_{t_0}$ est une valeur aberrante si elle n'est pas en accord avec le modèle ; c'est-à-dire si la différence entre $ x_{t_0}$ et $ \hat x_{t_0}$ est ``trop'' grande pour que l'on puisse valablement juger que $ x_t$ soit une réalisation de $ f(t,{\beta})+{\varepsilon}_t$.

Ce peut être dû

L'usage est de retirer de la série ces valeurs aberrantes afin de ne pas perturber l'estimation des coefficients et d'améliorer l'adéquation du modèle aux données restantes. En quelque sorte, on corrige la réalité pour l'adapter au modèle. D'autre part, les valeurs aberrantes ont un intérêt pour elles-mêmes en signalant les accidents et les bouleversements historiques.

Pour tester si à tel instant correspond une valeur aberrante, le test utilisé est classiquement un test de Fisher. On introduit dans le modèle la possibilité d'une valeur aberrante en $ t_0$ en considérant désormais que $ X$ vérifie

$\displaystyle \forall t\in{\cal T},\ \ X_t=f(t,{\beta})+{\gamma}1_{t=t_0}+{\varepsilon}_t $
Tester si l'instant $ t_0$ correspond à une valeur ordinaire contre le fait que ce soit une valeur aberrante revient à tester $ H_0$ : $ {\gamma}=0$ contre $ H_1$ : $ {\gamma}\not=0$. On est ainsi ramené à un problème classique de test d'hypothèses linéaires. On note $ \tilde {\beta}$, $ \tilde {\gamma}$, $ \tilde{\sigma}^2$, et $ \tilde X_t$ les estimateurs des moindres carrés de $ {\beta}$, $ {\gamma}$, $ {\sigma}^2$ et $ {\mathbb{E}}[X_t]$ dans ce nouveau modèle (c'est-à-dire sous $ H_1$, tandis que $ \hat{\beta}$ et $ \hat X_t$ sont, comme précédemment, les estimateurs des moindres carrés sous $ H_0$). Soit $ \tilde {\varepsilon}_t=X_t-\tilde X_t$ et $ \hat{\varepsilon}_t=X_t-\hat X_t$. Alors, sous $ H_0$, la statistique
$\displaystyle F=\frac{\frac{1}{(p+1)-p}\left(\sum_{t\in{\cal T}}\hat{\varepsilo... ...lon}_t^2\right)}{\frac{1}{n-(p+1)}\sum_{t\in{\cal T}}\tilde{\varepsilon}_t^2}, $
avec $ p$ la dimension de l'espace vectoriel engendré par $ {\mathbb{E}}_{{\beta},{\sigma}^2}\left[X\right]$ quand $ {\beta}$ varie, et $ n=\char93 {\cal T}$, suit une loi de Fisher de paramètres $ 1$ et $ n-(p+1)$. On en déduit un test de niveau $ {\alpha}$ dont la zone de rejet est de la forme $ F>{\cal F}_{1,n-p-1}(1-{\alpha})$ avec $ {\cal F}_{1,n-p-1}(a)$ le quantile d'ordre $ a$ de la loi de Fisher de paramètres $ 1$ et $ n-(p+1)$.

On peut donner de $ F$ une expression un peu plus simple. En effet, on remarque que

$\displaystyle \sum_{t\in{\cal T}}\tilde{\varepsilon}_t^2=\sum_{t\in{\cal T}}(X_... ...t_0}(X_t-f(t,\tilde{\beta}))^2+(X_{t_0}-f(t_0,\tilde{\beta})-\tilde{\gamma})^2 $
Les estimateurs des moindres carrés $ \tilde {\beta}$ et $ \tilde {\gamma}$ minimisent (par définition) l'expression ci-dessus. Il s'ensuit immédiatement que $ \tilde{\gamma}=X_{t_0}-f(t_0,\tilde{\beta})$ tandis que $ \tilde {\beta}$ est déterminé en minimisant $ \sum_{t\in{\cal T},\ t\not=t_0}(X_t-f(t,\tilde{\beta}))^2$. Autrement dit, il s'agit de l'estimateur des moindres carrés associé au modèle
$\displaystyle \forall t\in{\cal T}-\{t_0\},\ X_t=f(t,{\beta})+{\varepsilon}_t; $
c'est-à-dire le modèle initial (sans valeur aberrante) associé à la série $ x$ dont on a ôté le point $ x_{t_0}$. La statistique $ F$ s'écrit donc
$\displaystyle F=\frac{(n-p-1)\left(\sum_{t\in{\cal T}}\hat{\varepsilon}_t^2-\su... ...repsilon}_t^2\right)}{\sum_{t\in{\cal T},\ t\not=t_0}\tilde{\varepsilon}_t^2}. $
On peut donner d'autres représentations de cette statistique. Nous avons montré à l'exercice [*] l'égalité $ F=(st)^2$, avec
$\displaystyle st=\frac{\tilde{\gamma}}{\sqrt{\tilde{\sigma}^2v^2_{\gamma}}} $
$ \mathop{\hbox{\upshape {var}}}\nolimits (\tilde{\gamma})={\sigma}^2v^2_{\gamma}$ . Sous $ H_0$, $ st$ suit une loi de Student de paramètre $ n-(p+1)$, et l'on obtient donc les mêmes tests en considérant des zones de rejet du type $ F>cte$ ou $ \left\vert st\right\vert>cte$. En fait, on peut montrer aussi que
$\displaystyle st=\frac{\hat{\varepsilon}_{t_0}}{\sqrt{\tilde{\sigma}^2v^2_{t_0}}} $
avec $ \mathop{\hbox{\upshape {var}}}\nolimits ({\varepsilon}_{t_0})={\sigma}^2 v^2_{t_0}$ . Le test de Fisher se ramène donc un test de la forme
$\displaystyle \left\vert \hat{\varepsilon}_{t_0}\right\vert >cte\sqrt{\tilde{\sigma}^2v^2_{t_0}} $
ce qui correspond bien à l'idée que l'on se fait d'une valeur aberrante, à savoir qu'elle soit déclarée telle si son résidu est excessif. L'intérêt de cette dernière représentation est qu'elle justifie une approximation qui diminue fortement la complexité des calculs. En effet, telle quelle la statistique
$\displaystyle \frac{\hat{\varepsilon}_{t_0}}{\sqrt{\tilde{\sigma}^2v^2_{t_0}}} $
nécessite pour la détermination de $ \tilde{\sigma}^2$ la résolution d'un modèle linéaire pour chaque valeur de $ t_0$, ce qui peut finir par être fort long. En remplaçant l'estimateur $ \tilde{\sigma}^2$ par $ \hat{\sigma}^2$, autre estimateur de $ {\sigma}^2$, on effectue une approximation minime qui ne perturbe pas la recherche des valeurs aberrantes. Mais elle permet de tester tous les instants de temps en ayant opéré qu'une seule résolution de modèle linéaire, puisque $ \hat{\sigma}^2$ n'est pas lié à une valeur précise $ t_0$ comme l'est $ \tilde{\sigma}^2$. En pratique, pour tester au niveau $ {\alpha}$ si $ t_0$ est une valeur aberrante, on considère la zone critique de la forme
$\displaystyle \left\vert \hat{\varepsilon}_{t_0}\right\vert >t_{1-{\alpha}/2,n-p}\sqrt{\hat{\sigma}^2v^2_{t_0}} $
avec $ t_{1-{\alpha}/2,n-p}$ quantile d'ordre $ 1-{\alpha}/2$ de la loi de Student de paramètre $ n-p$, ce qui revient à considérer, légèrement à tort, que sous $ H_0$ $ \hat{\varepsilon}_{t_0}$ est indépendant de $ \hat{\sigma}^2$. C'est ce test, dit de Student, qui est usuellement pratiqué. On voit dans le tableau les degrés de signification obtenus par les deux approches, et leur concordance.
Années Test de Fisher Test de Student
1670 7,695 7,685
1728 1,567 1,563
1765 1,486 1,479
1796 1,559 1,555



Sous-sections

Section : Modèles linéaires
Précédent : Exemple.
Suivant : Remarques :

Thierry Cabanal-Duvillard