Objectif
On nous donne un ensemble de données , qui contient des vecteurs de caractéristiques et des étiquettes de classe . Notons comme l’ensemble des caractéristiques de la classe . Nous supposons ce qui suit :
- Que . Autrement dit, étant donné une étiquette de classe, la distribution des caractéristiques appartenant à cette classe forme une Gaussienne de moyenne et de covariance .
- Les échantillons sont indépendants et identiquement distribués (i.i.d.) selon cette distribution Gaussienne supposée.
Le problème que l’estimation du maximum de vraisemblance (MLE) cherche à résoudre est de trouver l’ensemble de paramètres le plus probable, étant donné les données. Nous notons
qui inclut les moyennes et les covariances pour chaque classe. La vraisemblance de est
et l’estimateur du maximum de vraisemblance (MLE) de , , est
En pratique, nous utilisons la log-vraisemblance pour des calculs plus simples :
car maximiser la log-vraisemblance est équivalent à maximiser la vraisemblance. En d’autres termes, la vraisemblance nous indique la probabilité de générer notre ensemble de données si chaque point de données était tiré indépendamment de la distribution définie par . Le qui maximise cette probabilité définit la distribution réelle à partir de laquelle a été tiré.
Nous pouvons essayer de trouver en fixant le gradient de à et en vérifiant que la solution est un maximum. Cependant, cela ne garantit pas un maximum global.
Exemple : $\boldsymbol{\mu}$ inconnu
Supposons que chaque élément de notre ensemble de données soit tiré d’une distribution gaussienne multivariée avec une covariance connue mais une moyenne inconnue . Quel est l’estimateur du maximum de vraisemblance (MLE) de ?
Pour trouver le MLE de , nous maximisons la fonction de vraisemblance. Pour une distribution gaussienne multivariée :
où est la dimension de .
Puisque nous avons supposé que les échantillons sont indépendants, la vraisemblance de l’ensemble de données est le produit des vraisemblances de chaque . Cela devient une somme dans l’espace logarithmique :
En prenant le gradient et en le fixant à zéro :
Dérivation du gradient
Considérons la forme quadratique, où , :
Calcul du gradient :
Où le premier terme provient de et le second de . Nous remarquons que :
donc,
Dans notre cas, nous différencions par rapport à , ce qui introduit un signe négatif lors de la substitution. En utilisant le fait que est symétrique (car c’est une matrice de covariance) et le résultat ci-dessus :
En multipliant par des deux côtés :
ce qui implique :
qui est la moyenne empirique ! Ce résultat est tout à fait logique.