朴素贝叶斯 - Shihanmax's blog

一、优缺点¶

$$P(Y \mid X)=\cfrac{P(X\mid Y)P(Y)}{P(X)}$$

以垃圾邮件识别为例（以H表示事件“是垃圾邮件”，N表示事件“不是垃圾邮件”）：

$$P(H\mid mail)=\cfrac{P(mail\mid H)P(H)}{P(mail)}$$

其中：

假设某一封邮件的内容是“我司可办理正规发票”，该邮件是垃圾邮件的概率是：

$$P(H\mid 我司可办理正规发票)=\cfrac{P(我司可办理正规发票\mid H)P(H)}{P(我司可办理正规发票)}$$

由于邮件中包含的句子多种多样，不太可能将所有句子在正常邮件和垃圾邮件中出现的次数，考虑将句子特征转化为词的特征，上式变为：

$$P(H\mid 我\;司\;可\;办理\;正规\;发票)=\cfrac{P(我\;司\;可\;办理\;正规\;发票\mid H)P(H)}{P(我\;司\;可\;办理\;正规\;发票)} \tag{1}$$

针对$P(我\;司\;可\;办理\;正规\;发票)$，引入“朴素”的独立性假设：

$$P(我\;司\;可\;办理\;正规\;发票\mid H) \approx P(我\mid H)*P(司\mid H)*P(可\mid H)*P(办理\mid H)*P(正规\mid H)*P(发票\mid H)$$

上式中的分量$P(我\mid H)$表示，垃圾邮件中，“我”出现的概率。

$$P(我\mid H)=\cfrac{P(我,H)}{P(H)} \approx \cfrac{count(我,H)}{count(H)} \tag{2}$$

令$C = P(H\mid 我\;司\;可\;办理\;正规\;发票)$，$\overline C = P(N\mid 我\;司\;可\;办理\;正规\;发票)$

判断该邮件是否是垃圾邮件，只需要比较$(1)$式中的分子即可：

即比较：

$$P(我\mid H)*P(司\mid H)*P(可\mid H)*P(办理\mid H)*P(正规\mid H)*P(发票\mid H)*P(H) \tag{3}$$

与

$$P(我\mid N)*P(司\mid N)*P(可\mid N)*P(办理\mid N)*P(正规\mid N)*P(发票\mid N)*P(N) \tag{4}$$

的大小，$(3)、(4)$式中的各项，可以通过对语料的统计，通过式$(2)$得到。

去掉语料中的停用词，可以减少模型训练和判断分类的时间，可以通过对照停用词表实现；而关键词相对普通的词，在训练中往往具有更大的权重，如上述例子中的“发票”。关键词需要人工经验进行指定。

在上述例子中，如果“发票”一词以前没有出现过，则计算概率时，会导致整个分子的值变为0（这种情况很常见）。

$$P(word \mid H)=\cfrac{count(word)+1}{\sum (count(word)+k)}$$

其中，$k$是邮件类别数，这里取2。

待补充