文档介绍:基于多关系决策树算法的研究
摘要
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。高效
性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,
这个问题尤为重要。多关系数据挖掘任务的复杂性对算法的性能提出了更高
的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的搜索空间变得
更复杂,更大。对于多关系数据学****算法,提高算法效率的主要瓶颈在于假
设空间。针对以上问题,本文主要做了以下工作:
首先,本文对数据挖掘理论、关系数据挖掘理论进行了研究,尤其是多
关系数据挖掘的分类算法-多关系决策树算法及多关系数据挖掘的最新技术-
元组传播技术进行了深入的研究。
其次,本文提出了多关系决策树的改进算法。多关系决策树主要从两方
面进行改进:1 为了提高多关系决策树算法可扩展性,本文将虚拟连接元组
传播技术应用到改进的多关系决策树算法中;2 为了减少系统独自摸索的时
间、减少系统搜索有用属性的时间和提高用户的满意程度,本文提出了在用
户指导下完成分类任务的背景属性传递技术,并将该技术应用到改进的多关
系决策树中。
最后,本文对改进的多关系决策树算法进行了理论证明和实验验证。本
文的实验主要利用了 PKDD CUP’99 中的 Loan、Account、Transaction 三个
关系,采用两种方法对一般多关系决策树算法和改进的对关系决策树算法进
行比较实验。第一种方法,固定三个关系的记录数不变,每个关系分别增加
属性个数进行实验,第二种方法,固定三个关系中的属性个数不变,改变关
系记录条数进行实验。
通过上面的实验结果,本文研究认为,当改进的多关系决策树在搜索数
据项未达到背景属性传递阀值时,改进多关系决策树算法的运行效率较低;
当改进的多关系决策树在搜索数据项达到背景属性传递阀值时,改进的多关
系决策树算法的效率相对很高且受属性个数增加(或记录数增加)影响较小。
关键词 多关系数据挖掘;多关系决策树;元组标识传播;背景属性
Research on Multi-Relational Decision Tree
Algorithm
Abstract
Multi-relational data mining is an important and rapid development of one
of the areas of data mining in recent years. Efficiency and scalability of data
mining have been an important research topic. Consider multi-relational data
mining, the issue is particularly important. The complexity of multi-relational
data mining put forward to higher requirements on performance of the algorithm.
With the traditional data mining algorithm, the search space of multi-relational
data mining algorithm becomes more complex and much bigger. For multi-
relational data learning algorithm, the main bottleneck of improving algorithm
efficiency is the assumption space. In view of the above problems, this paper do
the following work:
First of all, this paper has studied on data mining theory, multi-relational
data mining theory , Especially it has studied deeply on mu