文档介绍:摘要数据挖掘是指在数据中发现模式、知识或数据间的关系。分类挖掘是数据挖掘中最活跃、最成熟的研究方向,分类算法又是其中涉及到的关键技术。在各种分类算法中,决策树方法有更易被用户理解、更适合大训练数据集以及不需要处理训练数据集以外的信息等优点,已经得到广泛的研究和应用。但基于信息论的传统的决策树技术也存在缺点:偏向于选择属性值较多的属性、对样本质量依赖性强和被限制在每个结点上只检验单个属性等。为此,本文把粗糙集技术应用到决策树算法中。粗糙集是研究不精确、不确定知识的工具,具有很强的知识获取能力。在研究的过程中,发现以粗糙集为基础的区分价值属性选择判据优于传统的信息熵,可以降低决策树的规模,但是需要两两比较所有对象,时间性能不好。据此,本文提出了重要和匾A礁龈拍睿跎倭吮冉洗问档土耸奔淇ONA私徊浇低树的规模,克服单变量决策树没有综合考虑属性间的联系等不足,本文用多变量构造算法结合匾:。以匾集合中的部分属性作为初始的检验属性,对基于区分价值的决策树算法进行最后,利用实验对改进的基于区分价值的决策树算法和基于区分价值的多变量决策树算法进行对比分析。实验结果表明,前者降低了算法的时间开销,但是却并没有牺牲决策树分类的准确性,而后者构造的决策树在规模上得到了进一步的缩减,也就是构造了更为简单的决策树,也不失分类的准确关键词:决策树;粗糙集;区分价值;匾#。性。哈尔滨工程大学硕士学位论文
.琒,,,.,.!猇.,.痑,.;..琲瑃琤甶甶.,畍猧,猧.●———叠徽州葺輎宣昌罨蔿Σ靡瞄縤胕硇蔩—貌胈岛宣暑な磔葜胈
籋·—籐—琷哈尔滨工程大学硕士学位论文■—■觥觥觥觥猨—目—■■■—■■—●—胃—■■■皇恍鹠,:猧■暑—茫坏钍頸叠暑宣宣暑.;籇
第滦髀课题背景随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来说,企业拥有的数据本身就相当于一个宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的技术决策和经营决策,使企业在竞争中立于不败之地。从另外一个角度,上世纪年代以来,计算机以及信息技术的飞速发展,涌现出许多新兴技术和新的概念,如性能更高的计算机、因特网⒉僮飨低场⑹莶挚和神经网络等等。在市场需求和技术力量这两个因素都具备的环境下,数据挖掘技术琄菘庵J斗⑾值母拍和技术就应运而生了。数据挖掘荚诖哟罅康摹⒉煌耆ǖ摹⒂性肷摹⒛:摹随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识⋯。还有很多和这一术语相近似的术语,如从数据库中发现知识、数据分析、数据融合约熬霾咧С值取D壳岸允萃诰虻难芯主要集中在分类、聚类、关联规则挖掘、序列模式发现、异常和趋势发现等方面,其中分类挖掘在商业等领域中的成功应用使它成为数据挖掘中最活跃、最成熟的研究方向,分类算法是数据挖掘中最重要的技术之一,是数据挖掘中的一个重要课题。分类技术有很多,如决策树、贝叶斯网络、神经网络、遗传算法和最近邻分类等。决策树学习方法是目前重点研究的方向。哈尔滨工程大学硕士学位论文
国内外研究历史与现状决策树研究历史与现状决策树起源于概念学习系统,,其思路是找出最有分辨力的属性,把数据库划分为许多子集杂κ鞯囊桓龇种,构成一个分枝过程,然后对每一个子集递归调用分枝过程,直到所有子集包含同一类型的数据,最后得到的决策树能对新的例子进行分类。牟蛔晏岢龌谛畔㈧氐南陆邓俣茸魑Q∪〔馐允粜缘腎算法”U攵訧偏向于选择属性值较多的不足,ú捎昧诵畔⒃鲆媛首魑J粜缘难≡癖曜迹坛辛薎算法的全部优点并对其进行了改进。.煞殖闪礁鼋锥危菏紫龋菪畔㈧最大的标准选择某个属性对训练数据集进行划分,递归调用直到每个划分中的所有例子属于同一个类;然后,要对建立的树进行剪枝,即剪去建立在噪音数据之上的分支悟”。.丶牡胤轿S糜诰霾叩氖粜缘难≡癫呗裕使用募扑沆氐姆椒ā5羌扑阈畔㈧芈实氖奔涓丛佣认喽岳此当冉细撸同时信息熵会造成不合适划分,如出现频率较高的属性和仅有单值的属性更有可能被选为决策属性。芯恐行目7⒊龅腟掷喾椒ê蚃算法使用了不同的数据机构,具有良好的并行性和可伸缩性,解决了牟荒艽聿痪沸畔⒌奈侍猓褂胁荒苡τ糜诖笫萘康那榭觥甅等人提出了惴āK贑算法的思想上增加了建立决策树前的数据压缩处理。采用属性归约方法和阈值控制简化了决策树的建立过程,省去了决策树建立后的剪枝和优化过程,提高了效率。一较高的分类效率。国内对决策树算法的研究:洪家荣等在分枝属性的选择上仍采用基于信息增益率