Malheureusement, on ne sait pas traduire l'a priori et donc sa probabilité, c'est pourquoi, on suppose toujours qu'il est soit négligeable soit qu'il contraint suffisamment l'application pour que toutes les interprétations possibles soient de la même catégorie.
Prenons le cas de l'interprétation de données bruitées. Dans ce
cas, on suppose que les données
sont des prélèvements d'un
phénomène
perturbé par un bruit additif
, ce qui nous
donne
. Dans ce cas, la probabilité traduisant l'a priori s'écrit
. Si le bruit n'est pas corrélé
avec le phénomène
, on obtient en fait un produit de deux
probabilités
. La maximisation de ce produit ne
conduit pas à une solution unique car les complexités de
et
s'équilibrent. En effet, pour un jeu de données fixé,
plus le modèle sera d'ordre faible plus il faudra supposer un
modèle de bruit complexe. A l'inverse, pour
données, on peut
toujours envisager une forme polynomiale de degré
qui prédit
exactement tous les points, et dans ce cas, le bruit
est nul,
donc de complexité très faible. Mais avons-nous l'habitude de
manipuler des modèles d'ordre très élevé ?