贝叶斯决策论是在概率框架下进行决策的基本方法之一、更是统计模式识别的主要方法之一。从名字也许能看出来，贝叶斯决策论其实是贝叶斯统计学派进行决策的方法。为了更加深刻地理解贝叶斯分类器，我们需要先对贝叶斯学派和其决策理论有一个大致的认知

贝叶斯学派与频率学派

贝叶斯学派强调概率的“主观性”，这一点和传统的、我们可能比较熟悉的频率学派不同。详细的论述牵扯到许多概率论和数理统计的知识，这里只说一个直观：

频率学派强调频率的“自然属性”，认为应该使用事件在重复试验中发生的频率作为其发生的概率的估计
贝叶斯学派不强调事件的“客观随机性”，认为仅仅只是“观察者”不知道事件的结果。换句话说，贝叶斯学派认为：事件之所以具有随机性仅仅是因为“观察者”的知识不完备，对于“知情者”来说、该事件其实不具备随机性。随机性的根源不在于事件，而在于“观察者”对该事件的知识状态

举个栗子：假设一个人抛了一枚均匀硬币到地上并迅速将其踩在脚底而在他面前从近到远坐了三个人。他本人看到了硬币是正面朝上的，而其他三个人也多多少少看到了一些信息，但显然坐得越远、看得就越模糊。频率学派会认为，该硬币是正是反、各自的概率都应该是 50%；但是贝叶斯学派会认为，对抛硬币的人来说、硬币是正面的概率就是 100%，然后可能对离他最近的人来说是 80%、对离他最远的人来说就可能还是 50%

所以相比起把模型参数固定、注重样本的随机性的频率学派而言，贝叶斯学派将样本视为是固定的、把模型的参数视为关键。在上面这个例子里面，样本就是抛出去的那枚硬币，模型的参数就是每个人从中获得的“信息”。对于频率学派而言，每个人获得的“信息”不应该有不同，所以自然会根据“均匀硬币抛出正面的概率是 50%”这个“样本的信息”来导出“硬币是正面的概率为 50%”这个结论。但是对贝叶斯学派而言，硬币抛出去就抛出去了，问题的关键在于模型的参数、亦即“观察者”从中获得的信息，所以会导出“对于抛硬币的人而言，硬币是正面的概率是 100%”这一类的结论

贝叶斯决策论

大致知道贝叶斯学派的思想后，我们就可以介绍贝叶斯决策论了。这里不可避免地要牵扯到概率论和数理统计的相关定义和知识，但幸运的是它们都是比较基础且直观的部分、无需太多数学背景就可以知道它们的含义：

行动空间

行动空间（通常用 $A$ 来表示）是某项实际工作中可能采取的各种“行动”所构成的集合。正如前文所提到的、贝叶斯学派注重的是模型参数，所以通常而言我们想要做出的“行动”是“决定模型的参数”。因此我们通常会将行动空间取为参数空间，亦即 $A=\Theta$

决策

决策（通常用 $\delta(\tilde X)$ 来表示）是样本空间 $X$ 到行动空间 $A$ 的一个映射。换句话说，对于一个单一的样本 $\tilde X$ （ $\tilde X\in X$ ），决策函数可以利用它得到 $A$ 中的一个行动。需要注意的是，这里的样本 $\tilde X$ 通常是高维的随机向量： $\tilde X=(x_1,...,x_N)^T$ ；尤其需要分清的是，这个（以及本节之后的所有） $\tilde X$ 其实是一般意义上的“训练集”、 $x_i$ 才是一般意义上的“样本”。这是因为本节主要在叙述数理统计相关知识，所以在术语上和机器学习术语会有所冲突，需要分辨清它们的关系

损失函数

损失函数（通常用 $L(\theta,a)=L(\theta,\delta(\tilde X))$ 来表示）用于衡量当参数是 $\theta$ （ $\theta\in\Theta$ ， $\Theta$ 是参数空间）时采取行动 $a(a\in A)$ 所引起的损失

决策风险

决策风险（通常用 $R(\theta,\delta)$ 来表示）是损失函数的期望： $R(\theta,\delta)=EL(\theta,\delta(\tilde X))$

先验分布

先验分布描述了参数 $\theta$ 在已知样本 $\tilde X$ 中的分布

平均风险

平均风险（通常用 $\rho(\delta)$ 来表示）定义为决策风险 $R(\theta,\delta)$ 在先验分布下的期望：

$\rho(\delta) = E_\xi R(\theta,\delta)$

贝叶斯决策

贝叶斯决策（通常用 $\delta^*$ 来表示）满足：

$\rho(\delta^*)=\inf_\delta\rho(\delta)$

换句话说，贝叶斯决策 $\delta^*$ 是在某个先验分布下使得平均风险最小的决策

寻找一般意义下的贝叶斯决策是相当不平凡的数学问题，为简洁、我们需要结合具体的机器学习算法来推导相应的贝叶斯决策。相关的讨论会在说明朴素贝叶斯算法的文章中进行，这里就暂时先按下不表