La théorie de l'estimation permet de proposer des solutions visant à obtenir une bien meilleure approximation de la densité réelle à partir d'un histogramme.
La première approche consiste à estimer la densité de la v.a.
en
par
, le nombre d'occurences de réalisations
appartenant à la
ème classe associée à la valeur
. La densité est donc la même
quelque soit la position de
entre les extrémités de cette classe.
Une première amélioration consiste à utiliser une fenêtre mobile. On
construit autour de
une classe de longueur
:
, et on compte de nouveau le nombre
d'occurences appartenant à cette fenêtre:
. On peut
également écrire
Cette méthode donne une estimation peu régulière. Si l'on veut une
fonction lisse, il est alors possible de généraliser la formule
précédente en utilisant des noyaux, i.e. fonctions
, plus
continus. En pratique, on utilise souvent des noyaux symétriques et très
fréquemment un noyau gaussien
ou parabolique
pour
.
Ce dernier noyau est appelé noyau d'Epanechnikov. Il a des propriétés
mathématique intéressantes. La constante
est appelée constante
de lissage. Son rôle est déterminant, à l'image de la largeur des classes
de l'histogramme: si
est faible,
sera très peu régulière,
si
est grand,
sera très (trop) lisse.
Bien que l'on sache que
doit être proportionnel à
, sa valeur
optimale se détermine souvent empiriquement.
Il n'est pas nécessaire que
soit une densité positive en tout point. On
peut tout à fait envisager d'utiliser des noyaux prenant des valeurs négatives,
par exemple le noyau proposé par M.Lejeune:
pour
.