文档介绍:华中科技大学
硕士学位论文
达梦数据挖掘工具的设计与实现
姓名:郭峰
申请学位级别:硕士
专业:计算机软件与理论
指导教师:王元珍
20090529
摘要
数据挖掘,又称为数据库中的知识发现,数据挖掘,是指从大量的、不完全的、
有噪声的、模糊的、随机的实际应用数据中提炼出新颖的、有效地、潜在的、有用
的知识,提取的知识表示为概念、规则、规律、模式的形式。挖掘工具作为数据挖
掘的应用手段,也是一个备受关注的研究内容。
目前,数据挖掘的工具有很多,一般都使用复杂,不能满足应用需要。易用,
交互功能良好的数据挖掘工具已经成为当前研究的热点之一。
围绕数据挖掘工具存在的三个问题即挖掘过程是否反映了实际的业务问题,挖
掘结果是否能让用户深入理解,开展了三个方面的研究:运算链的设计,Java 与 Flash
的结合,数据预处理过程的改进。
为了克服现有数据挖掘工具不能反应实际业务问题,提出了用运算节点和运算
链的解决方案,即将获取数据源、数据预处理、挖掘算法选择这三个处理阶段作为
一个个具有相应功能的运算节点,每个运算节点具有独立性,同时又一起构成运算
链,运算链的高度灵活性克服了现有挖掘工具只能直线式处理的不足,符合了数据
挖掘过程是一个反复进行的本质特点。在这个方案基础上,建立了运算链正确性检
查规则,帮助用户对建立的挖掘过程进行正确性判断,克服了传统数据挖掘工具因
为过于专业性而带来易用性很差的问题。
为了使挖掘结果能有丰富的图形展示,以帮助用户理解挖掘结果,在研究了一
般结果表现方式的基础上,使用 Flash 展示挖掘结果,相比用 Java 的图形展示,Flash
有着更为丰富的图形表现能力,又不会带来过大的系统开销。两者的结合,使工具
既有了强大的挖掘计算能力,又有了生动的图像表现能力。
为了使待挖掘的数据不妨碍挖掘算法的执行效率,研究现有的挖掘工具对于原
始数据的处理特点,在此基础上,一方面通过尺度同步的方法将待挖掘数据中的
“坏”数据转换为“好”数据,另外一方面通过基于χ2 统计的方法将符号型属性和
数值型属性进行处理,以减少原始数据集的大小。
关键词:运算节点,运算链,尺度同步
I
Abstract
Data mining is obtaining hidden information from a large amount of data ,and data
mining tool ,as the practical means of data mining ,is a popular research content .Data
mining tool is the practical reflection of data mining .
There are a lot of data mining tools which plicated and can not satisfy .the
practical needs . Therefore ,data mining tools which are friendly to use and have an ideal
interchange function have e popular recently .
The two problems that centered on data mining tools are whether the building of
mining process reflects the real problem ,has the result given the user deep
understanding ,and the research of three sides are developed : the design of
calculatorchain,bination of Java and Flash,the improvement to the process of the
data preprocessing.
To conquer the obstacle that the current data mining tools can not reflect the practical
business , the tools are redesigned based on the normal mining process ,and figured out the
solution for calculation node and chain ,tha