文档介绍：第卷第期厦门大学学报自然科学版
51 4 ( )
年月
2012 7 Journal of Xiamen University (Natural Science)
基于特征相关的改进加权朴素贝叶斯分类算法
饶丽丽1,刘雄辉2,张东站1*
厦门大学信息科学与技术学院福建厦门龙岩烟草工业有限责任
(1. , 361005;2.
公司信息技术部福建龙岩
, 364021)
摘要朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的为了在一定程度上放松这一假设提
: . ,
出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词
频反文档频率权重计算基础上考虑到特征项在类内和类间的分布情况另外还结合特征项间的相关度调整
- (TF-IDF) , , ,
权重计算值加大最能代表所属类的特征项的权重将它称之为权重计算与基于传统权重的加权
, , TF-IDF-FC . TF-IDF
朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分
类效果均有一定的提高
.
关键词朴素贝叶斯文本分类器加权朴素贝叶斯文本分类算法权重特征项间的相关度
: ; ;TF-IDF ;
中图分类号文献标志码文章编号
:TP :A :0438-0479(2012)04-0682-04
朴素贝叶斯方法[1]是目前公认的一种简单有效的假定有个类给定元组分
2) m C1,C2,…,Cm . X,
分类方法它是一种基于概率的分类方法被广泛地应类法将预测属于具有最高后验概率在条件下
, , X ( X )
用于模式识别自然语言处理机器人导航规划机器的类也就是说朴素贝叶斯分类法预测属于类
、、、、. , X Ci,
学习以及利用贝叶斯网络技术构建和分析软件系统当且仅当
.
朴素贝叶斯文本分类方法是基于特征项间独立的假
P(Ci/X)>P(Cj/X),1≤j≤m,j≠i,
设但是这与现实是不相符的为此很多人研究出一种这样最大化其中最大的类称
, , , P(Ci/X). P(Ci/X) Ci
为最大后验假设
加权朴素贝叶斯算法,对后验概率计算中的每个条件.
根据贝叶斯定理得到
概率项进行加权,并且对不同的特征项提供不同的加,
权值从而使得特征项之间是不独立的它们对类别的(/ ) ( )
, , ( / ) P X Ci P Ci ()
P Ci X = ( ) . 1
重要程度是不一样的[2] 本文提出一种基于特征相关 P X
. 由于对于所有类为常数只需要
的改进加权朴素贝叶斯算法在传统词频反文档频率 3) P(X) , P(X/
, - 最大即可如果类的先验概率未知则通
Ci)P(Ci) . ,
( )权重的基础上,考虑到类内和类间分布,同
TF-IDF 常假定这些类是等概率的,即( ) ( ) …
时根据特征项之间的相关程度对它们的权重进行调 P C1 =P C2 =
, 并据此对最大化
=P(Cm ), P(X/Ci) .