文档介绍:基于属性约简和属性加权的朴素贝叶斯分类算法的研究
The Research Of Naïve Bayes Classification Algorithm
Based On Atrribute Reduction And Attribute Weighting
作者姓名:魏会建
专业名称:计算机软件与理论
指导教师:徐沛娟 副教授
学位类别:工学硕士
答辩日期:2014 年 5月 26 日
摘 要
摘 要
基于属性约简和属性加权的朴素贝叶斯分类算法的研究
数据挖掘中有很多发现知识模式的方法,本文主要研究了其中的朴素贝叶斯
分类模型。数据挖掘在当今互联网时代正发挥着越来越重要的作用,对人们的生
产生活、社会的发展和经济的进步都有着巨大的推动作用。分类问题作为数据挖
掘中最重要的问题之一也受到各界学者们的关注。朴素贝叶斯分类模型是一种被
广泛知晓的分类问题解决方案,但其依然拥有着自身的局限性,即类条件独立性
假设:不同的条件属性之间在类决策属性已知的条件下是相互独立的。同时,朴
素贝叶斯分类模型认为各条件属性的类条件概率对分类的影响程度是相同的。这
虽然简化了算法逻辑,降低了计算复杂度,但却是不完全符合现实生活的,因此
导致了在很多应用场景中朴素贝叶斯分类模型不能有理想的分类结果。在结合粗
糙集理论和信息论的基础上,本文提出了一种新的基于朴素贝叶斯的分类模型,
该模型能够约简掉数据集中的冗余属性,同时计算约简后的各条件属性相对于决
策属性的权重,将该权重融入到朴素贝叶斯分类模型中,达到提高朴素贝叶斯分
类模型应用场景和分类精确度的目的。
本文的主要研究内容有:首先,对贝叶斯理论和朴素贝叶斯分类模型做了研
究和分析,介绍了贝叶斯决策准则、极大后验假设以及举例介绍了贝叶斯分类的
过程。然后讲述了粗糙集基本理论,以及基于区分矩阵的正域约简算法,并简单
介绍了信息论以及信息熵和条件熵的概念和计算方法,在此基础上引出了几种已
经存在的利用信息熵和条件熵计算条件属性相对于决策属性重要度的公式,同时
给出了利用这些公式来构造加权朴素贝叶斯分类模型的算法步骤。最后本文根据
现有的粗糙集理论约简模型总结了利用粗糙集进行属性约简的一般思想,提出了
一种基于粗糙集关联规则提取的新的属性约简算法,同时将该算法同已经成熟的
加权朴素贝叶斯分类模型相结合,又构造了一种新的贝叶斯分类模型,本文称之
为基于属性约简和属性加权的朴素贝叶斯分类模型(RW-NBC)。通过 UCI 数据
I
摘 要
集和在 WEKA 平台上的仿真实验,文章证明了本文所提出的两种算法模型的可行
性和有效性。
关键词:
数据挖掘,贝叶斯,粗糙集,信息论,属性约简,属性加权
II
Abstract
Abstract
The Research Of Naïve Bayes Classification Algorithm Based On
Atrribute Reduction And Attribute Weighting
There are many DataMining methods to discover knowledge model, this paper
mainly studies Naive Bayesian classification model. On now days, Data Mining is
playing an increasingly important role, on people's production and life, economic
development and social pro