L’estimation bayésienne des paramètres (BPE) est fondamentalement différente de MLE ou MAP. Alors que ces deux dernières cherchent un ensemble optimal de paramètres pour le modèle, BPE traite comme une variable aléatoire avec une distribution .
Configuration
On dispose d’un ensemble de données , qui contient caractéristiques i.i.d. . Étant donné un nouveau vecteur de caractéristiques , nous voulons le classer dans une classe . Une façon de le faire est d’utiliser la règle de décision de Bayes. C’est-à-dire, nous choisissons la classe plutôt que la classe si
où ne contient que les caractéristiques appartenant à la classe , et vice versa. Nous ne pouvons pas directement résoudre cela sans supposer une structure supplémentaire pour la distribution sous-jacente.
Supposons donc que la distribution est entièrement décrite par un modèle paramétré uniquement par , une variable aléatoire. Cette distribution nous indique la probabilité de trouver s’il appartenait à la classe . À partir de maintenant, j’omets l’indice sur par souci de concision. Nous observons alors que
Cela est beaucoup plus gérable. Nous pouvons calculer en insérant dans notre modèle supposé. peut également être calculé puisque
En résumé, nous avons conçu une méthode qui nous donne une vraisemblance pour , moyennée sur tous les paramètres possibles , pondérée par l’a priori et la vraisemblance de étant donné les données conditionnelles de classe .
Cas Gaussien
Dans le cas où notre modèle est une Gaussienne, avec une moyenne de distribution et une covariance connue , BPE est assez facile à calculer. Dans ce cas, notre ensemble de paramètres se compose uniquement de .
Nous supposons ce qui suit :
-
. C’est-à-dire, notre modèle est valide pour chaque classe.
-
. Ici, sont notre “meilleure estimation” de la forme de chaque distribution conditionnelle de classe, avant de voir les données.
En gardant à l’esprit que notre objectif est de calculer , nous devons d’abord trouver . D’après le théorème de Bayes :
En insérant les formules gaussiennes :
où
Dérivation
Nous remarquons que l’exposant est quadratique en . Cela signifie que doit également être une Gaussienne ! Mettons-la sous forme standard. Nous traitons les premier et deuxième termes de l’exposant séparément. Premier terme :
Deuxième terme :
En les regroupant :
ce qui se simplifie en
où
qui peut être trouvé en égalisant les termes similaires.
Par conséquent, .
Pour compléter l’exercice, nous devons trouver . Puisque , nous pouvons exprimer . Il est évident que . Alors .
Il s’avère donc qu’avec cette méthode, nous n’avons pas besoin d’évaluer une intégrale du tout !
En Résumé
- , où sont “estimés”
- , où sont les statistiques conditionnelles de classe calculées à partir de
- . Cette fonction est utilisée pour la règle de décision de Bayes