文档介绍:基于属性加权的朴素贝叶斯分类算法改进
 
 
 
 
 
   
 
 
 
胡胜利+王琦敏
摘要:通过对朴素贝叶斯算法的学****和理解,针对削弱朴素贝叶斯属性条件独立假设的问分类的数据可以使用分类器进行分类,这些分类器算法包含有基于结构的森林扩展、平均树扩展(ATAN)的朴素贝叶斯和基于属性的条件似然对数(CLL)朴素贝叶斯等。
贝叶斯分类具备以下几个特点:
(1) 可以对不确定的预测做出假设的特点,确定某一实例从属的类别,计算得出所求那一类的概率,明确不仅仅是把该实例绝对性的指给某一类,最后所求的实例从属的类就是拥有具有最大概率的类。
(2) 属性的类别可以是多样的,如离散、混合甚至是连续型的,实例的全部属性都要加入到联合概率计算中,即分类不止一个的属性决定。
(3) 对实例的预测也可以由多个假设加上权重的概率一起计算出,等等。
贝叶斯定理检验假设h的概率,基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到数据的本身的先验概率。用P(h)表示假设h的初始概率。用P(D)表示即将要观察的数据D的先验概率,P(h|D)代表给定D时假设h成立的概率,P(D|h)表示假设成立的条件下D的概率。贝叶斯规则定义如下所示:
令Dc表示训练集D中第c类样本组成的集合,如果有充足的独立同分布样本,就可以容易的统计出类先验概率:
假设有m个类C1,C2,.....,Cm,给定元组X,在条件X下分类法将预测X属于具有最高后验概率的类,朴素贝叶斯预测X属于类Ci,当且仅当:
由贝叶斯定理易知:
由于P(X)对所有类为常数,所以最大化p(Ci|X)即P(X|Ci)P(Ci)最大即可。而P(Ci)即先验概率,P(X|Ci)即X样本属性的联合概率,计算方式如下:
由于(5)式的[-]计算需要假设样本的n个属性相互独立,而在日常生活环境下,没有完全相互独立的事物存在,即事物之间必定存在着某种普遍的联系。因此在这种现实情况下朴素贝叶斯算法会受到一定的影响,为了削弱这种影响本文通过对(5)式中的属性进行加权,将属性间的相互独立要求削弱。即将(5)式修改如下:
现在就是寻找一个方法来计算这个权重w。
2 加权朴素贝叶斯计算模型
模型计算方式
在朴素贝叶斯分类器中,属性变量与类变量的关系并不是简单的是/否关系,所以属性加权方法的提出很大程度上弱化了朴素贝叶斯条件独立的假设。属性加权可以看作是属性选择的一个概括化和一般化。2004年zhang和sheng提出了一种基于增益率的属性加权方法,其属性权值的计算公式如下:
式中,GR(i)代表属性变量Ai的增益率,m代表样本所含属性个数。还有一种基于ReliefF的属性加权方法,其主要是将属性的关联度得分结果作为属性的权值,起计算方式如下:
式中,RelevanceScore(Ai)代表基于ReliefF的属性选择方法中属性Ai的关联度得分。为了同时考虑到属性的增益率加权系数和关联度得分加权系数,本文定义了一种新的属性加权计算方式为:
式中wz表示增益率加权系数,ws表示关联度得分加权系数。
算法步骤如下
(1) 计算属性的增益率加权系数和关联度得分加权系数。
(2) 根据前面的