(本文会用到的所有代码都在这里)
本文主要介绍混合型朴素贝叶斯—— MergedNB 的实现。(我知道的)混合型朴素贝叶斯算法主要有两种提法:
- 用某种分布的密度函数算出训练集中各个样本连续型特征相应维度的密度之后,根据这些密度的情况将该维度离散化、最后再训练离散型朴素贝叶斯模型
- 直接结合离散型朴素贝叶斯和连续型朴素贝叶斯:
从直观可以看出、第二种提法可能会比第一种提法要“激进”一些,因为如果某个连续型维度采用的分布特别“大起大落”的话、该维度可能就会直接“主导”整个决策。但是考虑到实现的简洁和直观(……),我们还是演示第二种提法的实现。感兴趣的观众老爷可以尝试实现第一种提法,思路和过程都是没有太本质的区别的、只是会繁琐不少