框架的实现

(本文会用到的所有代码都在这里

对于我个人而言、光看这么一个框架是非常容易摸不着头脑的
毕竟之前花了许多时间在数学部分讲的那些算法完全没有体现在这个框架中、取而代之的是一些我抽象出来的和算法无关的结构性部分……
虽然从逻辑上来说应该先说明如何搭建这个框架,但从容易理解的角度来说、个人建议先不看这章的内容而是先看后续的实现具体算法的章节
然后如果那时有不懂的定义、再对照这一章的相关部分来看
不过如果是对朴素贝叶斯算法非常熟悉的观众老爷的话、直接看本章的抽象会引起一些共鸣也说不定 ( σ’ω’)σ

所谓的框架、自然是指三种朴素贝叶斯模型(离散、连续、混合)共性的抽象了。由于贝叶斯决策论就摆在那里、不难知道如下功能是通用的:

  • 计算类别的先验概率
  • 训练出一个能输出后验概率的决策函数
  • 利用该决策函数进行预测和评估

虽说朴素贝叶斯大体上来说只是简单的计数、但是想以比较高的效率做好这件事却比想象中的要麻烦不少(说实话麻烦到我有些不想讲的程度了)

总之先来看看这个框架的初始化步骤吧(前方高能)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class NaiveBayes(ClassifierBase):
"""
初始化结构
self._x, self._y:记录训练集的变量
self._data:核心数组,存储实际使用的条件概率的相关信息
self._func:模型核心——决策函数,能够根据输入的x、y输出对应的后验概率
self._n_possibilities:记录各个维度特征取值个数的数组
self._labelled_x:记录按类别分开后的输入数据的数组
self._label_zip:记录类别相关信息的数组,视具体算法、定义会有所不同
self._cat_counter:核心数组,记录第i类数据的个数(cat是category的缩写)
self._con_counter:核心数组,用于记录数据条件概率的原始极大似然估计
self.label_dic:核心字典,用于记录数值化类别时的转换关系
self._feat_dics:核心字典,用于记录数值化各维度特征(feat)时的转换关系
"""
def __init__(self):
self._x = self._y = None
self._data = self._func = None
self._n_possibilities = None
self._labelled_x = self._label_zip = None
self._cat_counter = self._con_counter = None
self.label_dic = self._feat_dics = None

其中、self._con_counter[d][c][p](con 是 conditional 的缩写)

注释比代码还多是想闹哪样???(╯‵□′)╯︵┻━┻

总之和我一样陷入了茫然的观众老爷们可以先不太在意这一坨是什么玩意儿,毕竟这些东西是抽象程度比较高的属性……等结合具体算法时、这些属性的意义可能就会明确得多

不过需要注意的是,我们实现的NaiveBayes基类继承了一个叫ClassifierBase的基类、其实现是我们之前没有提及的。具体的代码可参见GitHub,这里仅大致说一下它所实现的、一些非常普适性的功能:

  • 可视化二维数据
  • 重载 strreprgetitem 方法
  • 根据predict方法、输出某个数据集上的准确率

这样做主要是为了合理地重用代码,从而能够使机器学习模型的开发更加便捷、高效。在今后的实现中,我们也会频繁地运用到ClassifierBase这个基类

下面进入正题……首先来看怎么计算先验概率(直接利用上面的self._cat_counter属性即可)

1
2
3
def get_prior_probability(self, lb=1):
return [(_c_num + lb) / (len(self._y) + lb * len(self._cat_counter))
for _c_num in self._cat_counter]

其中参数lb即为平滑项,默认为 1 意味着默认使用拉普拉斯平滑

然后看看训练步骤能如何进行抽象

1
2
3
4
def fit(self, x=None, y=None, sample_weight=None, lb=1):
if x is not None and y is not None:
self.feed_data(x, y, sample_weight)
self._func = self._fit(lb)

(岂可修不就只是调用了一下feed_data方法而已嘛还说成抽象什么的行不行啊)

其中用到的feed_data方法是留给各个子类定义的、进行数据预处理的方法;然后self._fit可说是核心训练函数、它会返回我们的决策函数self._func

最后看看怎样利用self._func来预测未知数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def predict(self, x, get_raw_result=False):
# 调用相应方法进行数据预处理(这在离散型朴素贝叶斯中尤为重要)
x = self._transfer_x(x)
# 只有将算法进行向量化之后才能做以下的步骤
m_arg, m_probability = np.zeros(len(x), dtype=np.int8), np.zeros(len(x))
# len(self._cat_counter) 其实就是类别个数
for i in range(len(self._cat_counter)):
# 注意这里的 x 其实是矩阵、p 是对应的“后验概率矩阵”:p = p(y=i|x)
# 这意味着决策函数 self._func 需要支持矩阵运算
p = self._func(x, i)
# 利用 Numpy 进行向量化操作
_mask = p > m_probability
m_arg[_mask], m_probability[_mask] = i, p[_mask]
# 利用转换字典 self.label_dic 输出决策
# 参数 get_raw_result 控制该函数是输出预测的类别还是输出相应的后验概率
if not get_raw_result:
return np.array([self.label_dic[arg] for arg in m_arg])
return m_probability

其中self.label_dic大概是这个德性的:比如训练集的类别空间为 {red, green, blue} 然后第一个样本的类别是 red 且第二个样本的类别是 blue、那么就有

1
self.label_dic = np.array(["red", "blue", "green"])

以上就是朴素贝叶斯模型框架的搭建,下一篇文章则会在该框架的基础上实现离散型朴素贝叶斯模型

观众老爷们能赏个脸么 ( σ'ω')σ