next up previous contents
Next: Intervalle de confiance sur Up: Régression linéaire Previous: Résolution dans le cas   Contents

Le cas de la droite

Nous abordons ici le cas limité où le modèle est une droite. On parle aussi de regression linéaire simple. On a alors $f(x) = y$ et $\hat f(x,a) = \alpha x + \beta$. Le système linéaire à résoudre s'écrit:


\begin{displaymath}\left\{ \begin{array}{l}
\left( \sum_{j=1}^n x_j^2 \right) \a...
...ight) \alpha + n \beta = \sum_{j=1}^n y_j
\end{array} \right. \end{displaymath}

Ce système a une solution unique si et seulement si $n \sum x_j^2 - \left( \sum x_j \right)^2 \neq 0$.


\begin{displaymath}\left\{ \begin{array}{l}
{\hat a} = \frac{n \sum x_i y_i - (\...
... x_i y_i)}{n \sum x_i^2 - (\sum x_i)^2}\\
\end{array} \right. \end{displaymath}

On peut considérer que les données $\{ x_j \}$ constituent un échantillon d'une v.a. $X$ que l'on peut caractériser par sa moyenne $\hat{E}[X]$ et sa variance $\hat{V}[X]$ estimées. La condition d'existence d'une solution est donc $\hat{E}[X^2] - \hat{E}[X]^2 = \hat{V}[X] \neq 0$ ce qui équivaut à dire qu'il faut simplement que les données de l'échantillon ne soient pas toutes identiques. Le système peut alors se réécrire sous la forme:


\begin{displaymath}\left\{ \begin{array}{l}
\hat{E}[X^2]~\alpha + \hat{E}[X]~\be...
...\\
\hat{E}[X]~\alpha + \beta = \hat{E}[Y]
\end{array} \right. \end{displaymath}

dont la solution analytique est:

\begin{displaymath}\left\{ \begin{array}{l}
\hat a = \frac{\hat{E}[XY] - \hat{E}...
...[X]^2} = \hat{E}[Y] - \hat a \hat{E}[X]\\
\end{array} \right. \end{displaymath}

Les v.a. $X$ et $Y$ sont reliées par la relation $Y = \bar a~X + \bar b$$\bar a$ et $\bar b$ sont les valeurs vraies. On a vu dans ce cas que $Cov(X,Y) = \rho(X,Y) \sqrt{V[X]~V[Y]}$ et $V[Y] = \bar a^2 V[X]$. On peut donc relier la valeur estimée $\hat a$ à la valeur vraie $\bar a$ par:

\begin{displaymath}\hat a = \rho(X,Y) \sqrt{\frac{V[Y]}{V[X]}} = \rho(X,Y)~\vert\bar a\vert \end{displaymath}

L'estimation sera donc parfaite si les v.a. $X$ et $Y$ sont parfaitement corrélées (i.e. $\rho(X,Y) = \pm 1$). Plus cette corrélation sera faible, moins bonne sera l'estimation. Le coefficient de corrélation est donc un bon indicateur de la qualité de la régression linéaire simple. De même, pour le paramètre $b$, on sait que $E[Y] = \bar a~ E[X] + \bar b$. Donc,


\begin{displaymath}\hat b = \bar a~\hat{E}[X] + \bar b - \hat a~\hat{E}[X] = (1 - \rho(X,Y)) \hat{E}[X] \bar a + \bar b \end{displaymath}

Là encore, l'estimation sera d'autant meilleure que la corrélation sera proche de 1. Cependant, on constate que $\hat{E}[X]$ et $\bar a$ interviennent comme un gain sur l'erreur due à la corrélation non parfaite. L'estimation de $\bar b$ sera donc plus vite dégradée que celle de $\bar a$.


next up previous contents
Next: Intervalle de confiance sur Up: Régression linéaire Previous: Résolution dans le cas   Contents
Jean-Michel Jolion 2006-05-27