Section : Mortalité en Normandie
Précédent : Mortalité en Normandie
Suivant : Mortalité accidentelle

Coefficient de détermination.

Un modèle linéaire décrit les variations d'une série temporelle en distinguant celles qui sont dues à la partie déterministe et qui sont prévisibles et estimables, des fluctuations imprévisibles du bruit blanc. Il sera d'autant plus intéressant que la partie déterministe sera prépondérante sur la partie aléatoire. Pour évaluer cette pertinence du modèle, nous allons introduire le coefficient de détermination.

Soient $ \hat{\alpha}$ et $ \hat{\beta}$ les estimateurs des moindres carrés de $ {\alpha}$, $ {\beta}$. On note aussi $ \bar X=\frac{1}{110}\sum_{t\in{\cal T}}X_t$, $ \hat X_t=\hat{\alpha}+\hat{\beta}t$, $ \hat{\varepsilon}_t=X_t-\hat X_t$ et $ \hat{\sigma}^2=\frac{1}{108}\sum_{t\in{\cal T}}\hat{\varepsilon}_t^2$ l'estimateur de $ {\sigma}^2$. On a donc

$\displaystyle \forall t\in{\cal T}\ \ X_t=\hat{\alpha}+\hat{\beta} t+\hat{\varepsilon}_t $
La droite de régression $ (\hat{\alpha}+\hat{\beta} t,t\in{\cal T})$ correspond à la valeur de la série à l'instant $ t$ telle que le modèle permet de la reconstruire, ce qu'on appelle la partie expliquée ; tandis que le vecteur des résidus $ \hat{\varepsilon}$ est la partie inexpliquée, la part d'erreur résiduelle que le modèle ne permet d'anticiper. Cette distinction se retrouve en termes d'analyse de la variance, où l'on peut séparer dans les variations de la série ce qui revient aux variations de la partie expliquée de ce qui ressort des variations de l'erreur résiduelle. On a en effet l'équation
$\displaystyle \sum_{t\in{\cal T}}(X_t-\bar X)^2=\sum_{t\in{\cal T}}(\hat X_t-\bar X)^2+\sum_{t\in{\cal T}}\hat{\varepsilon}_t^2 $
$ \sum_{t\in{\cal T}}(X_t-\bar X)^2$ mesure la variance totale de la série, $ \sum_{t\in{\cal T}}(\hat X_t-\bar X)^2$ la variance expliquée par le modèle, et $ \sum_{t\in{\cal T}}\hat{\varepsilon}_t^2$ la variance résiduelle.

Il va de soi que l'on préfère avoir une variance expliquée forte et une variance résiduelle faible. Le coefficient de détermination

$\displaystyle R^2=\frac{\sum_{t\in{\cal T}}(\hat X_t-\bar X)^2}{\sum_{t\in{\cal... ...c{\sum_{t\in{\cal T}}\hat{\varepsilon}_t^2}{\sum_{t\in{\cal T}}(X_t-\bar X)^2} $
constitue comme une mesure de la qualité de la régression, de la pertinence du modèle. Plus $ R^2$ sera proche de 1, davantage les fluctuations de la série seront expliquées par le modèle.

Dans le cas présent, l'application numérique donne $ \hat{\alpha}=-351,4$, $ \hat{\beta}=0,236$, $ \hat{\sigma}^2=487,5$ et $ R^2=0,14$. Le modèle linéaire donne peu d'information sur les variations de la série.

\includegraphics[scale=.6]{Dessins/Ger03-5.epsi}

\includegraphics[scale=.6]{Dessins/Ger03-6.epsi}


Section : Mortalité en Normandie
Précédent : Mortalité en Normandie
Suivant : Mortalité accidentelle

Thierry Cabanal-Duvillard