Soient
un ensemble de données, i.e. un échantillon, et
un contexte (
englobera tout ce qui n'est pas directement en
relation avec le processus sous-jacent aux données). Le problème
de l'estimation est un cas particulier d'un problème plus général
qui est celui de l'interprétation des données. Soit
cette interprétation. Notre problème est donc de déterminer
connaissant
et
. Une approche possible est de choisir
l'interprétation la plus probable. C'est à dire chercher
qui maximise la probabilité conditionnelle
. Cette
probabilité n'est pas directement évaluable mais on peut se
servir du théorème de Bayes.
d'où l'on déduit
La maximisation de cette expression se faisant sur l'interprétation
,
on peut supprimer le dénominateur et ne pas tenir compte de la
probabilité du contexte
.
Si de plus on suppose que le contexte
est indépendant des données, on trouve l'interprétation
la plus probable en maximisant le produit
.
Dans cette expression,
est la validation a posteriori des
données par l'interprétation.
est l'a priori,
indépendant des données. Ce deuxième terme traduit le biais qui
fait que l'on ne part jamais avec tous les modèles équiprobables
(soit parce que l'on tient compte de l'application sous-jacente, soit
par habitude ou connaissance).