next up previous contents
Next: Estimation itérative Up: Estimation robuste Previous: Le cas monodimensionnel   Contents

Le cas général

Reprenons le cas général. On veut maximiser la probabilité $P[g\vert i] = \prod_{j=0}^n J(e_j)$$e_j$ est l'écart sur la $j$ème donnée et $J$ la distribution des écarts.

La maximisation de cette probabilité peut se réécrire sous la forme d'une minimisation d'une fonction de coût $C(a)$$a$ est le vecteur des paramètres du modèle / interprétation $i$.


\begin{displaymath}C(a) = \sum_{j=1}^n \rho\left(\frac{g_j - \hat g(j,a)}{\sigma_j}\right) \end{displaymath}

avec $\rho = log(J^{-1})$ et où $\sigma_j$ traduit l'incertitude sur la $j$ème donnée et permet de relativiser la valeur de chaque écart.

Soit $\psi(x) = \frac{d \rho}{dx}(x)$. La minimisation de $C$ conduit à résoudre le système de $k$ (nombre de paramètres) équations:

\begin{displaymath}\sum_{j=0}^n \frac{1}{\sigma_j} \psi\left(\frac{g_j - \hat g(...
...igma_j}\right)
\frac{\partial{\hat g}(j,a)}{\partial{a_k}} = 0
\end{displaymath}

Ce système n'a bien sur pas de solution générale et il convient de l'étudier en fonction du choix de $\rho$, ce qui donne une classe d'estimateurs connus sous le nom de M-estimateurs.

$\bullet$ Modèle de Legendre:

C'est le cas le plus connu car il correspond à l'hypothèse de normalité de la distribution des écarts. On pose $\rho(x) = x^2$ et $\psi(x) = 2 x$

$\bullet$ L-estimateur:

Egalement très utilisé, cet estimateur utilise $\rho(x) = \vert x\vert$ et donc $\psi(x) = sgn(x)$ ce qui conduit à l'estimateur médian.

$\bullet$ Modèle de Cauchy / Lorentz:

Comme nous l'avons vu précédemment, ce modèle permet de par la plus lente décroissance de la loi de Cauchy, de mieux rendre compte des apparitions de données abérentes.

$\rho(x) = ln(1 + \frac{1}{2}x^2)$ et $\psi(x) = \frac{x}{1 + \frac{1}{2} x^2}$. La système à résoudre est alors non linéaire et il faut avoir recours à des résolutions itératives.

$\bullet$ Modèle de Huber:

$\rho (x) = \left\{ \begin{array}{ll}
0.5 x^2 & si~\vert x\vert \le w \\
w \vert x\vert - 0.5 w^2 & sinon
\end{array} \right.$

$\psi (x) = \left\{ \begin{array}{ll}
-w & si~x < -w \\
x & si~\vert x\vert \le w \\
w & si~x > w \\
\end{array} \right.$

Dans ce modèle, on utilise un seuil $w$ qui permet d'avoir à la fois une décroissance rapide (i.e. quadratique) si l'écart $x$ est faible et de réduire la décroissance (donc augmenter l'importance) des écarts forts (au delà du seuil). Il réalise un bon compromis entre le modèle de Legendre et celui du L-estimateur.

$\bullet$ Modèle de Tuckey:

Le modèle de Tuckey est du même type que celui de Hubert mais un peu plus complexe car il permet de s'affranchir de la sensibilité au choix du seuil $w$.

$\rho (x) = \left\{ \begin{array}{ll}
\frac{1}{6}\left[ 1 - \left(1 - \left(\fra...
...)^3\right] & si~\vert x\vert \le cS \\
\frac{1}{6} & sinon
\end{array} \right.$

$\psi (x) = \left\{ \begin{array}{ll}
x \left(1 - \left(\frac{x}{cS}\right)^2\right)^2 & si~\vert x\vert < cS \\
0 & sinon \\
\end{array} \right.$

La valeur $cS$ est appelée point de rejet (rejection point) et joue le rôle du seuil de Hubert. La valeur $c$ est la constante de confiance est vaut $2.795$ (cette valeur a été déterminée pour obtenir une bonne adéquation à des écarts distribués normalement). La valeur $S$ est un facteur de dimension qui permet d'adapter le seuil à l'étalement de la distribution des écarts. On peut assimiler $S$ à un écart-type et utiliser l'estimateur correspondant mais Tuckey propose un estimateur plus robuste, la médiane des écarts absolus (Median of Absolute Deviation) qui vaut


\begin{displaymath}S = 1.4826~med \left( \vert e_j - med (e_j)\vert \right) \end{displaymath}

On peut aussi déterminer le point de rejet en pourcentage du volume de données. Par exemple, on ellimine les $\alpha$ % plus grandes et plus petites valeurs des écarts. Une valeur généralement recommandée est $\alpha = 15 \%$. La médiane est le cas extrème de cet estimateur tronqué avec $\alpha = 50 \%$.

$\bullet$ R-estimateur (Jaeckel, 1972):

Le R-estimateur est un cas particulier car il ne s'appuie plus sur des relations linéaires mais tient compte essentiellement du classement des écarts. La fonction de cout $C$ est la suivante:

\begin{displaymath}C(a) = \sum_j a(R_j) e_j \end{displaymath}

$R_j$ est le rang de l'écart $e_j$ dans la liste triée des écarts. La fonction $a(R_j)$ est normalisée telle que $\sum a(R_j) = 0$. Par exemple, Wilcoxon a proposé la fonction suivante $a(R_j) = R_j - \frac{n+1}{2}$.

Les tests de Kolmogorov-Smirnov et de Spearman sont d'autres exemples de R-estimateurs.

$\bullet$ Le modèle L.M.S. (Least Median of Squares, Rousseeuw, 1984):

Le vecteur de paramètres $a$ est la solution de $Min_a med \{e_j^2\}$. Si la robustesse de cet estimateur, $\frac{n-p+2}{2n+1}$, est asymptotiquement égale à $\frac{1}{2}$, sa complexité est relativement élevée $O(n^{p+1}~log~n)$.


next up previous contents
Next: Estimation itérative Up: Estimation robuste Previous: Le cas monodimensionnel   Contents
Jean-Michel Jolion 2006-05-27