1 / 4
文档名称:

基于粗糙集的连续属性离散化算法及其应用.pdf

格式:pdf   页数:4
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于粗糙集的连续属性离散化算法及其应用.pdf

上传人:小玉儿 2013/12/1 文件大小:0 KB

下载得到文件列表

基于粗糙集的连续属性离散化算法及其应用.pdf

文档介绍

文档介绍:第28卷第2期高师理科学刊 Vol. 28
2008 年 3 月 Journal of Science of Teachers′College and University Mar. 2008
文章编号:1007-9831(2008)02-0001-04
基于粗糙集的连续属性离散化算法及其应用
桑琳 1,宫悦 1,陈斯 2,高连阳 1,徐满华 1
(1. 大连海事大学数学系,辽宁大连 116026;2. 北京邮电大学经济管理学院,北京 100876)
摘要:为了提高信息系统的相容性、解决离散化过程中阈值以难确定的问题,提出了一种改进的
,以基于最小描述长度原理
的决策系统信息熵作为离散化过程的评价函数,能够有效地提高离散化速度和精度,并且增强了
,此算法能够得到满意的离散化结果,是一种能够自动调节阈值的
有效算法.
关键词:粗糙集;离散化;信息增益;相容度
中图分类号:TP181 文献标识码:A
Pawlak 提出的粗糙集理论[1-2]是一种新的处理不精确、
具有很强的定性分析能力,不需要预先给定属性的数量描述,直接从问题的描述出发找出问题的内在规律.
由于粗糙集理论处理的是具有离散属性值数据的集合,而在多数情况下,同一个数据库中既包含离散
属性,又包含连续属性,因此需要对连续属性数据进行某种方式的离散化,可以起到数据归约和简化的作
用,,离散化必然会造成部分信息的损失,并可能遇到相当繁琐的计算,不同的离散化方
法其计算复杂性和信息损失量是不相同的,因此研究使信息损失尽可能少,计算量尽可能小的离散化方法
是重要的,这也是粗糙集理论的一个重要研究方向[3].
信息增益是信息论中一个重要的概念,现已广泛地应用于机器学习和数据挖掘中[4].本文以信息增益
作为属性重要性的度量方法,提出了一种基于决策表相容度与信息增益的连续属性离散化算法,该算法在
离散化过程中不仅考虑了连续属性值之间的序关系,,
新算法能有效提高离散化速度和精度,并且增强了系统鲁棒性.
1 粗糙集离散化问题描述
数据开采中经常遇到的技术难点有 2 点:一是数据的不完整性,即数据库中某些个别记录在某些属性
上可能存在空值现象,给发现、评估和解释一些重要的模式带来了困难;另外一个难点是数据库中的某些
属性上的属性值是连续的,如果不对这些数据进行处理,就会给规则的提取带来很大的困难,必须对这些
连续的数据进行离散化处理.

能力,增强系统的抗噪音能力,应该采用尽可能少的断点来完成划分过程,从这一角度来说,在保证系统
分类能力的前提下,用最小的结果断点集合对系统进行的离散化是基于粗糙集理论的最优离散化[5].
在粗糙集理论中,决策表 S = (U, A, V , f ) :U = (x1 , x2 ,
, xn ) 为对象的非
空有限集合,称为论域; A 为属性的非空有限集