贝叶斯参数估计(BPE)与最大似然估计(MLE)或最大后验估计(MAP)有本质上的不同。后两者是求解模型的最优参数集
θ^,而BPE则将
θ视为一个具有分布
p(θ)的随机变量。
设置
我们有一个数据集
D,其中包含
n 个独立同分布的特征
xj。给定一个新的特征向量
x,我们希望将其分类到某个类别
ω。一种方法是使用贝叶斯决策规则。也就是说,如果
p(x∣Dj)>p(x∣Di)我们就选择类别
ωj 而不是类别
ωi,其中
Dj 仅包含属于类别
ωj 的特征,反之亦然。如果不进一步假设底层分布的结构,我们无法直接解决这个问题。
因此,我们假设分布
p(x∣Dj) 完全由一个仅由随机变量
θ 参数化的模型描述。这个分布告诉我们,如果
x 属于类别
ωj,我们找到它的可能性有多大。从现在开始,为了简洁起见,我省略了
Dj 的下标。
然后我们观察到
p(x∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ)p(θ∣D)dθ这更容易处理。我们可以通过将
x 代入我们假设的模型来计算
p(x∣θ)。
p(θ∣D) 也可以计算,因为
p(θ∣D)=∫p(D∣θ)p(θ)dθp(D∣θ)p(θ)(贝叶斯规则)=α⋅p(D∣θ)p(θ)=α⋅p(θ)x∈D∏p(x∣θ)(D 独立同分布)总结一下,我们设计了一种方法,可以为我们提供一个关于
x 的似然度,该似然度在所有可能的参数
θ 上取平均,并根据给定类别条件数据
D 的先验和似然度进行加权。
高斯情况
在我们的模型是高斯分布的情况下,均值为
μ,其分布为
p(μ),且协方差
Σ 已知时,BPE 的计算相当简单。在这种情况下,我们的参数集仅包含
μ。
我们假设以下条件:
-
p(x∣μ)∼N(μ,Σ)。也就是说,我们的模型对每个类别都有效。
-
p(μ)∼N(μ0,Σ0)。这里,
μ0,Σ0 是我们在看到数据之前对每个类条件分布形状的“最佳猜测”。
记住我们的目标是计算
p(x∣D),我们首先需要找到
p(μ∣D)。
根据贝叶斯定理:
p(μ∣D)=p(D)p(D∣μ)p(μ)∝p(D∣μ)p(μ)代入高斯公式:
p(μ∣D)∝(k=1∏nexp(−21(xk−μ)⊤Σ−1(xk−μ)))exp(−21(μ−μ0)⊤Σ0−1(μ−μ0))=exp(−21k=1∑n(xk−μ)⊤Σ−1(xk−μ)−21(μ−μ0)⊤Σ0−1(μ−μ0))=exp(−21(μ−μn)⊤Σn−1(μ−μn))其中
Σnμn=(nΣ−1+Σ0−1)−1=Σn(Σ−1k=1∑nxk+Σ0−1μ0)
推导
我们注意到指数部分是关于
μ 的二次型。这意味着
p(μ∣D) 也必须是一个高斯分布!让我们将其写成标准形式。
我们分别处理指数中的第一项和第二项。第一项:
k=1∑n(xk−μ)⊤Σ−1(xk−μ)=k=1∑n[(xk⊤Σ−1xk)−2xk⊤Σ−1μ+μ⊤Σ−1μ]=常数−2μ⊤Σ−1k=1∑nxk+nμ⊤Σ−1μ第二项:
(μ−μ0)⊤Σ0−1(μ−μ0)=μ⊤Σ0−1μ−2μ⊤Σ0−1μ0+常数将它们重新组合在一起:
21[μ⊤(nΣ−1+Σ0−1)μ−2μ⊤(Σ−1k=1∑nxk+Σ0−1μ0)]+常数这简化为
21(μ−μn)⊤Σn−1(μ−μn)+常数其中
Σn−1Σn−1μn=nΣ−1+Σ0−1=Σ−1k=1∑nxk+Σ0−1μ0这可以通过比较同类项得出。
因此,
p(μ∣D)∼N(μn,Σn)。
为了完成这个练习,我们需要找到
p(x∣D)。
由于
x∣μ∼N(μ,Σ),
我们可以表示
x=μ+ϵ。
显然,
ϵ∼N(0,Σ)。
因此,
x∼N(μn,Σn+Σ)。
所以,使用这种方法,我们根本不需要计算积分!
总结
-
p(μ)∼N(μ0,Σ0),其中
μ0,Σ0 是“猜测”的
-
p(x∣μ)∼N(μ,Σ),其中
μ,Σ 是从
D 计算出的类条件统计量
-
p(μ∣D)∼N(μn,Σn)
-
p(x∣D)∼N(μn,Σn+Σ)。此函数用于贝叶斯决策规则