无论是贝叶斯学派还是频率学派,一个无法避开的问题就是如何从已有的样本中获取信息并据此估计目标模型的参数。比较有名的“频率近似概率”其实就是(基于大数定律的)相当合理的估计之一,本章所叙述的两种参数估计方法在最后也通常会归结于它
极大似然估计(ML 估计)
如果把模型描述成一个概率模型的话,一个自然的想法是希望得到的模型参数能够使得在训练集作为输入时、模型输出的概率达到极大。这里就有一个似然函数的概念,它能够输出在模型参数为下的概率:
我们希望找到的就是使得似然函数在作为输入时达到极大的参数:
举个栗子:假设一个暗箱中有白球、黑球共两个,虽然不知道具体的颜色分布情况、但是知道这两个球是完全一样的。现在有放回地从箱子里抽了 2 个球,发现两次抽出来的结果是 1 黑 1 白,那么该如何估计箱子里面球的颜色?从直观上来说似乎箱子中也是 1 黑 1 白会比较合理,下面我们就来说明“1 黑 1 白”这个估计就是极大似然估计。
在这个问题中,模型的参数可以设为从暗箱中抽出黑球的概率,样本可以描述为第i次取出的球是否是黑球;如果是就取 1、否则取 0。这样的话,似然函数就可以描述为:
直接对它求极大值(虽然可行但是)不太方便,通常的做法是将似然函数取对数之后再进行极大值的求解:
从而可知:
由于,所以得、亦即应该估计从暗箱中抽出黑球的概率是 50%;进一步地、既然暗箱中的两个球完全一样,我们应该估计暗箱中的颜色分布为 1 黑 1 白。
从以上的讨论可以看出,极大似然估计视待估参数为一个未知但固定的量、不考虑“观察者”的影响(亦即不考虑先验知识的影响),是传统的频率学派的做法
极大后验概率估计(MAP估计)
相比起极大似然估计,极大后验概率估计是更贴合贝叶斯学派思想的做法;事实上、甚至也有不少人直接称其为“贝叶斯估计”(注:贝叶斯估计的定义有许多,本人接触到的就有 3、4 种;囿于实力,本人无法辨析哪种才是真正的贝叶斯估计、所以我们不会进行相关的讨论)
在讨论 MAP 估计之前,我们有必要先知道何为后验概率:它可以理解为参数在训练集下所谓的“真实的出现概率”,能够利用参数的先验概率、样本的先验概率和条件概率通过贝叶斯公式导出(详见推导与推广)
而 MAP 估计的核心思想、就是将待估参数看成是一个随机变量、从而引入了极大似然估计里面没有引入的、参数的先验分布。MAP 估计的定义为:
同样的,为了计算简洁,我们通常对上式取对数:
可以看到,从形式上、极大后验概率估计只比极大似然估计多了这一项,不过它们背后的思想却相当不同。不过有意思的是,在之后具体讨论朴素贝叶斯算法时我们会看到、朴素贝叶斯在估计参数时选用了极大似然估计法、但是在做决策时则选用了 MAP 估计
和极大似然估计相比,MAP 估计的一个显著优势在于它可以引入所谓的“先验知识”,这正是贝叶斯学派的精髓。当然这个优势同时也伴随着劣势:它我们对模型参数有相对较好的认知、否则会相当大地影响到结果的合理性
既然先验分布如此重要,那么是否有比较合理的、先验分布的选取方法呢?事实上,如何确定先验分布这个问题,正是贝叶斯统计中最困难、最具有争议性却又必须解决的问题。虽然这个问题确实有许多现代的研究成果,但遗憾的是,尚未能有一个圆满的理论和普适的方法。这里拟介绍“协调性假说”这个相对而言拥有比较好的直观的理论:
- 我们选择的参数的先验分布、应该与由它和训练集确定的后验分布属同一类型
此时先验分布又叫共轭先验分布。这里面所谓的“同一类型”其实又是难有恰当定义的概念,但是我们可以直观地理解为:概率性质相似的所有分布归为“同一类型”。比如,所有的正态分布都是“同一类型”的