朴素贝叶斯

朴素贝叶斯

一、简介

尽管其假设过于简单,在很多实际情况下,朴素贝叶斯工作得很好,特别是文档分类和垃圾邮件过滤。

相比于其他更复杂的方法,朴素贝叶斯学习器和分类器非常快。 分类条件分布的解耦意味着可以独立单独地把每个特征视为一维分布来估计。这样反过来有助于缓解维度灾难带来的问题。

另一方面,尽管朴素贝叶斯被认为是一种相当不错的分类器,但却不是好的估计器(estimator),所以不能太过于重视从 predict_proba 输出的概率。

二、朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。

三、三种常见模型

1、多项式模型

当特征是离散的时候,使用多项式模型。

多项式模型在计算先验概率和条件概率会做拉普斯平滑处理(避免0概率):

2、高斯模型

当特征是连续变量的时候,运用多项式模型就会导致很多P(xi|yk)=0(不做平滑的情况下),此时即使做平滑,所得到的条件概率也难以描述真实情况。所以处理连续的特征变量,应该采用高斯模型。

高斯模型假设每一维特征都服从高斯分布(正态分布):

3、伯努利模型

与多项式模型一样,伯努利模型适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0 。