1 / 65
文档名称:

基于多关系决策树算法的研究.pdf

格式:pdf   页数:65页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于多关系决策树算法的研究.pdf

上传人:minzo 2014/5/15 文件大小:0 KB

下载得到文件列表

基于多关系决策树算法的研究.pdf

文档介绍

文档介绍:哈尔滨理工大学
硕士学位论文
基于多关系决策树算法的研究
姓名:宋广玲
申请学位级别:硕士
专业:计算机软件与理论
指导教师:郝忠孝
20090301
基于多关系决策树算法的研究摘要设空间。针对以上问题,本文主要做了以下工作:最后,本文对改进的多关系决策树算法进行了理论证明和实验验证。本行比较实验。第一种方法,固定三个关系的记录数不变,每个关系分别增加属性个数进行实验,第二种方法,固定三个关系中的属性个数不变,改变关据项未达到背景属性传递阀值时,改进多关系决策树算法的运行效率较低;系决策树算法的效率相对很高且受属性个数增加蚣锹际黾影响较小。关键词多关系数据挖掘;多关系决策树;元组标识传播;背景属性多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。高效性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,这个问题尤为重要。多关系数据挖掘任务的复杂性对算法的性能提出了更高的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的搜索空间变得更复杂,更大。对于多关系数据学****算法,提高算法效率的主要瓶颈在于假首先,本文对数据挖掘理论、关系数据挖掘理论进行了研究,。其次,本文提出了多关系决策树的改进算法。多关系决策树主要从两方面进行改进:A颂岣叨喙叵稻霾呤魉惴ǹ衫┱剐裕疚慕槟饬釉W传播技术应用到改进的多关系决策树算法中;A思跎傧低扯雷悦鞯氖间、减少系统搜索有用属性的时间和提高用户的满意程度,本文提出了在用户指导下完成分类任务的背景属性传递技术,并将该技术应用到改进的多关系决策树中。文的实验主要利用了械腖、关系,采用两种方法对一般多关系决策树算法和改进的对关系决策树算法进系记录条数进行实验。通过上面的实验结果,本文研究认为,当改进的多关系决策树在搜索数当改进的多关系决策树在搜索数据项达到背景属性传递阀值时,改进的多关哈尔滨理工大学工学硕士学位论文
,哈尔滨理笱学硕十学位论文瓹,.甀:瑃,·瑃;瑀,’.
琲,琓;,,;.琓琺—,琤..
导师签名:搁作者签名:床二广硷作者签名:泉于诠日期:乒日期:呗弈耆哈尔滨理工大学硕士学位论文原创性声明哈尔滨理工大学硕士学位论文使用授权书同期:。本人郑重声明:此处所提交的硕士学位论文《基于多关系决策树算法的研究诊,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影罗日年驴月秒究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。《基于多关系决策树算法的研究》系本人在哈尔滨理工大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论文印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。本学位论文属于保密口,在年解密后适用授权书。不保密因。朐谝陨舷嘤Ψ娇蚰诖颉
第滦髀课题的来源及研究背景,,是指从大型数据库或数据仓库中提取隐含的、叫知识发现的过程,它是涉及到数据库、人工智能、数理统计、可视化、提高数据的质量,从而提高数据挖掘的精确度和效率。由于数据质量决定决策质量,因此数据处理过程是数据挖据过程的重要步骤嗡引。的扩展,经典的学****方法存在一定的局限性:首先,命题逻辑的描述能力弱,已掌握地有关问题的背景知识。由于这些背景知识通常采用更具表达力的~阶数据以多关系的形式组织。课题的来源是黑龙江省自然科学基金资助项目,项目号:数据挖掘⋯殖剖菘庵械闹J斗⑾执薄未知的、非平凡的及有潜在应用价值信息的新领域,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也并行计算等领域交叉性新兴学科。数据挖掘和知识发现是在年掠诿拦滋芈墒姓倏5牡谑唤旃联合人工智能学术会议上正式形成的。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。它将虳方面的研究推向了高潮,从此,“数据挖掘’’一词开始流行口在数据挖掘过程中,数据通常是不完美的。尽管大部分数据挖掘技术可以忍受某种程度数据的不完美,但是注重理解和提高数据质量从而改进分析结果质量。现实中的数据一般存在噪声、离群点、数据遗漏、不一致、重复、数据有偏差,或者数据不代表所设想的现象或

最近更新