文档介绍:重庆大学
硕士学位论文
PMML研究与数据挖掘系统平台设计
姓名:许纯
申请学位级别:硕士
专业:计算机应用技术
指导教师:郭平
20050501
中文摘要
摘要
关系数据库的广泛使用促成了数据挖掘技术的诞生。数据挖掘系统在金融
业,电信和零售等有着巨大的应用前景。随着大量数据挖掘系统的使用,不同的
数据挖掘系统开发商之间,不同的研究机构之间以及系统开发商和研究机构之间
迫切需要一个与SQL之于关系数据库系统类似的数据挖掘语言出现。但是,数据
挖掘语言至今仍然没有一个统一的标准。不同研究机构或公司使用的主要有数据
挖掘查询语言(DBMiner的DMQL)、数据挖掘建模语言(OMG的PMML)和通用数
据挖掘语言(Microsoft的OLE DB for Data Mining)等。
本文介绍了数据挖掘的概念和功能,并对数据挖掘系统和相关技术的发展进
行了分析与讨论,介绍并分析了预言模型标记语言PMML。
本文在研究软件体系结构的基础上,设计了一个数据挖掘系统平台,给数据
挖掘技术的研究者提供一个研究用的实验平台。只要遵循该平台的数据模型接口
和挖掘模型接口,新的数据挖掘算法可以很容易地集成到该平台中去。同时,该
平台又是一个具有实际应用价值、可以与数据挖掘应用紧密结合的、便于升级和
移植的数据挖掘系统框架。将数据挖掘系统实现技术与最新的PMML标准结合起
来,采用组件技术设计,使得系统具有良好的开放性和可扩展性。
系统的设计主要包括数据服务器、挖掘服务器和专家服务器三部分。数据服
务器代表了系统的数据抽象,包括元数据的表示和数据的存取接口。挖掘服务器
实现系统的挖掘功能。通过对各种挖掘功能进行抽象,建立了以
TMiningAlgorithm为基类型的挖掘算法类型体系结构。
关键词:数据挖掘,软件体系结构, PMML
I
英文摘要
ABSTRACT
The vast applications of RDBMS impels the emergence of Data Mining
technology. Data Mining System will have been used in finance, munication
and retail industry. After a mass of data mining system had been used, there is an
urgent need to develop a universal data mining language, just like SQL in the RDMBS,
between different data mining system manufacturers, between different research
institutions and between every data mining system manufacturer and every research
institution. Still there some nonstandard languages used by panies and
institutions, for instance, data mining query language(DBMiner’s DMQL),data
mining modeling language(OMG’s PMML) and general data mining language
(Microsoft’s OLE DB for Data Mining).
In this article, we introduce the concepts and functions of data mining, discusse
and analyses the development of data mining system and its interrelated technologies,
introduce and analyse PMML.
Based on the research in software architecture, in this article, we design a data
mining system platform, which can provide a experiment platform for dat