Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理

1.1. 最开始的垃圾邮件判断方法，使用contain包含判断，只能一个关键词，而且100%概率判断1

1.2. 元件部件串联定律1

1.3. 垃圾邮件关键词串联定律表格法可视化贝叶斯定律1

1.4. 十一、最终的计算公式2

1.5. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，2

1.1. 文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。

1.2. 最开始的垃圾邮件判断方法，使用contain包含判断，只能一个关键词，而且100%概率判断

那么肯定不适用。。所以使用概率算法，出现一个垃圾词语，比如发票，则会判断概率为90%。。比如在出现另外一个垃圾词，比如购买，那么判断概率就会上升达到9x%...

1.3. 元件部件串联定律

当一个元件可靠性为70%的时候，那么俩个元件串联起来可靠性就降低了达到70%*70%=49%..

元件并联定律。可以提高可靠性，具体提升的百分点以下计算方法。。

1.4. 垃圾邮件关键词串联定律表格法可视化贝叶斯定律

比如如果出现发票这个词，那么此文件垃圾文件的概率为 90%。。

如果出现购买这个词，垃圾文件概率为 80%

得到以下表格----------表格开始----------

词汇	垃圾邮件概率	正常邮件概率
发票	90%	10%
购买	80%	20%
购买发票	90*80=72%（舍弃掉此错误结构	10*20=2%
购买发票	1-2%=98%（根据正常邮件概率反向计算垃圾邮件概率	10*20=2%

--------表格结束=-------

表格解说。。几条规则

第一，如果只是出现发票一词，则垃圾邮件概率为90%，正常邮件概率自然为1-90%==10%

第2，如果只是出现购买一词，则垃圾邮件概率为80%，正常邮件概率自然为1-80%==20%

第三部，如果出现购买发票俩个次，则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2%

很明显，如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。

第四步。。那么得到正常邮件概率就是2%。。自然垃圾邮件概率就是1-2%==98%了。。。

1.5. 十一、最终的计算公式

将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：

P=1-(1-p1)*(1-p2)*(1-p3);

一封邮件是不是垃圾邮件，就用这个式子进行计算

1.6. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，

表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。

有了这个公式以后，一封正常的信件即使出现sex这个词，

1.7. 解决F1和F2是连续变量，不适宜按照某个特定值计算概率。

但是这里有一个问题：F1和F2是连续变量，不适宜按照某个特定值计算概率。

一个技巧是将连续值变为离散值，计算区间的概率。比如将F1分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞]三个区间，然后计算每个区间的概率。在我们这个例子中，F1等于0.1，落在第二个区间，所以计算的时候，就使用第二个区间的发生概率。

参考资料

朴素贝叶斯分类器的应用 - 阮一峰的网络日志.html

作者:: 绰号:老哇的爪子（全名：：Attilax Akbar Al Rapanui 阿提拉克斯阿克巴阿尔拉帕努伊）

汉字名：艾提拉（艾龙）， EMAIL:1466519819@qq.com

转载请注明来源： http://www.cnblogs.com/attilax/

Atiend