next up previous contents
Next: Tests d'hypothèse Up: Estimation Previous: Estimation d'un mode   Contents

Estimation d'une densité

Nous avons vu précédemment que les tests d'adéquation ne permettait que de valider ou non une hypothèse sur la nature d'une loi de probabilité en s'appuyant essentiellement sur une distribution empirique, c'est à dire le plus souvent sur l'histogramme. Si il existe des règles simples sur la détermination du nombre de classes, il peut arriver que la nature de la loi soit difficile à déduire a priori de la forme de l'histogramme.

La théorie de l'estimation permet de proposer des solutions visant à obtenir une bien meilleure approximation de la densité réelle à partir d'un histogramme.

La première approche consiste à estimer la densité de la v.a. $X$ en $x$ par $n_i$, le nombre d'occurences de réalisations $x_i$ appartenant à la $i$ème classe associée à la valeur $x$. La densité est donc la même quelque soit la position de $x$ entre les extrémités de cette classe.

Une première amélioration consiste à utiliser une fenêtre mobile. On construit autour de $x$ une classe de longueur $h$: $I_x = [x-\frac{h}{2},x+\frac{h}{2}[$, et on compte de nouveau le nombre d'occurences appartenant à cette fenêtre: $ \hat f(x) = Card\{x_i~: x-\frac{h}{2} \le x_i < x+\frac{h}{2} \}$. On peut également écrire

\begin{displaymath}\hat f(x) = \frac{1}{n} \sum_{i=1}^n K(\frac{x - x_i}{h}) \end{displaymath}

$K$ est la fonction indicatrice de l'intervalle $[-1/2,1/2[$: $K(u) = 0$ si $u \ge \frac{1}{2}$ ou $u < -\frac{1}{2}$, et $K(u) = 1$ si $-\frac{1}{2} \le u < \frac{1}{2}$. $K(\frac{x - x_i}{h})$ vaut donc $1$ si $x_i \in I_x$.

Cette méthode donne une estimation peu régulière. Si l'on veut une fonction lisse, il est alors possible de généraliser la formule précédente en utilisant des noyaux, i.e. fonctions $K$, plus continus. En pratique, on utilise souvent des noyaux symétriques et très fréquemment un noyau gaussien $K(u) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{u^2}{2}}$ ou parabolique $K(u) = \frac{3}{4 \sqrt{5}} \left( 1 - \frac{u^2}{5} \right)$ pour $\vert u\vert < \sqrt{5}$.

Ce dernier noyau est appelé noyau d'Epanechnikov. Il a des propriétés mathématique intéressantes. La constante $h$ est appelée constante de lissage. Son rôle est déterminant, à l'image de la largeur des classes de l'histogramme: si $h$ est faible, $\hat f$ sera très peu régulière, si $h$ est grand, $\hat f$ sera très (trop) lisse.

Bien que l'on sache que $h$ doit être proportionnel à $n^{-1/5}$, sa valeur optimale se détermine souvent empiriquement.

Il n'est pas nécessaire que $K$ soit une densité positive en tout point. On peut tout à fait envisager d'utiliser des noyaux prenant des valeurs négatives, par exemple le noyau proposé par M.Lejeune: $K(u) = \frac{105}{64} \left(1 - u^2 \right)^2 \left( 1 - 3 u^2 \right)$ pour $\vert u\vert \le 1$.


next up previous contents
Next: Tests d'hypothèse Up: Estimation Previous: Estimation d'un mode   Contents
Jean-Michel Jolion 2006-05-27