贝叶斯参数估计(BPE)与最大似然估计(MLE)或最大后验估计(MAP)有本质上的不同。后两者是求解模型的最优参数集 ,而BPE则将 视为一个具有分布 的随机变量。
设置
我们有一个数据集 ,其中包含 个独立同分布的特征 。给定一个新的特征向量 ,我们希望将其分类到某个类别 。一种方法是使用贝叶斯决策规则。也就是说,如果
我们就选择类别 而不是类别 ,其中 仅包含属于类别 的特征,反之亦然。如果不进一步假设底层分布的结构,我们无法直接解决这个问题。
因此,我们假设分布 完全由一个仅由随机变量 参数化的模型描述。这个分布告诉我们,如果 属于类别 ,我们找到它的可能性有多大。从现在开始,为了简洁起见,我省略了 的下标。
然后我们观察到
这更容易处理。我们可以通过将 代入我们假设的模型来计算 。 也可以计算,因为
总结一下,我们设计了一种方法,可以为我们提供一个关于 的似然度,该似然度在所有可能的参数 上取平均,并根据给定类别条件数据 的先验和似然度进行加权。
高斯情况
在我们的模型是高斯分布的情况下,均值为 ,其分布为 ,且协方差 已知时,BPE 的计算相当简单。在这种情况下,我们的参数集仅包含 。
我们假设以下条件:
-
。也就是说,我们的模型对每个类别都有效。
-
。这里, 是我们在看到数据之前对每个类条件分布形状的“最佳猜测”。
记住我们的目标是计算 ,我们首先需要找到 。 根据贝叶斯定理:
代入高斯公式:
其中
推导
我们注意到指数部分是关于 的二次型。这意味着 也必须是一个高斯分布!让我们将其写成标准形式。 我们分别处理指数中的第一项和第二项。第一项:
第二项:
将它们重新组合在一起:
这简化为
其中
这可以通过比较同类项得出。
因此, 。
为了完成这个练习,我们需要找到 。 由于 , 我们可以表示 。 显然, 。 因此, 。
所以,使用这种方法,我们根本不需要计算积分!
总结
- ,其中 是“猜测”的
- ,其中 是从 计算出的类条件统计量
- 。此函数用于贝叶斯决策规则