目标
我们有一个数据集 ,其中包含特征向量 和类别标签 。将 表示为类别 的特征集合。我们做出以下假设:
- 给定类别标签 ,属于该类别的特征分布服从均值为 、协方差为 的高斯分布,即 。
- 样本 是*独立同分布(i.i.d.)*的,且服从上述假设的高斯分布。
MLE(最大似然估计)要解决的问题是,在给定数据的情况下,找到最可能的参数集 。我们记
其中包含每个类别的均值和协方差。 的似然函数为
而 的 MLE 估计 为
在实际计算中,我们使用对数似然函数以简化计算:
因为最大化对数似然等价于最大化似然。换句话说,似然函数告诉我们,如果每个数据点都是从 定义的分布中独立抽取的,生成我们数据集的概率是多少。最大化这个概率的 定义了 实际被抽取的分布。
我们可以尝试通过将 的梯度设为 来找到 ,并验证解是否为最大值。然而,这并不能保证找到全局最大值。
示例:未知的 $\boldsymbol{\mu}$
假设我们的数据集 中的每个元素 都是从已知协方差 但未知均值 的多元高斯分布中抽取的。 的最大似然估计(MLE)是什么?
为了找到 的 MLE,我们需要最大化似然函数。对于多元高斯分布:
其中 是 的维度。
由于我们假设样本是独立的,数据集 的似然是每个 的似然的乘积。在对数空间中,这变为求和:
对梯度求导并设为零:
梯度推导
考虑二次型,其中 , :
计算梯度:
其中第一项来自 ,第二项来自 。我们注意到:
因此,
在我们的情况下,我们对 求导,代入时会带来一个负号。利用 是对称的(因为它是协方差矩阵)以及上述结果:
两边乘以 :
这意味着:
这就是样本均值!这个结果非常合理。