1 / 34
文档名称:

粗糙集中基于NBC聚类的连续属性离散化方法研究.pdf

格式:pdf   页数:34
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

粗糙集中基于NBC聚类的连续属性离散化方法研究.pdf

上传人:banana 2014/5/18 文件大小:0 KB

下载得到文件列表

粗糙集中基于NBC聚类的连续属性离散化方法研究.pdf

文档介绍

文档介绍:河北大学
硕士学位论文
粗糙集中基于NBC聚类的连续属性离散化方法研究
姓名:郝寒雪
申请学位级别:硕士
专业:计算机软件与理论
指导教师:王熙照
20090501
摘要连续属性的离散化一般是做为机器学习、数据挖掘的一项重要的预处理步骤,本文首先介绍了连续属性离散化的评价标准、几种经典的离散化方法及粗糙集行实验比较和分析,通过比较实验说明了该算法的有效性。连续属性离散化属性重要度信息熵针对离散化问题,研究者们提出了诸多方法,例如早期的等宽等频算法及后来的利用遗传算法进行离散化等。根据离散化过程中是否应用了类别信息,把离散化算法分为监督的离散化算法和非监督的离散化算法。的相关知识;其次着重介绍了劾嗨惴ǖ乃惴ㄋ枷爰凹盎靖拍睿⒔岷洗糙集理论,提出了一种基于睦肷⒒惴ˋW詈蟊疚亩圆煌睦肷⒒椒ń关键词聚类摘要
,琭琫—猣,;,;,Ⅱ
作者签名:蠢霞嘘日期:丛学年上月烊⒈C芸冢凇!D辍!T隆!H战饷芎笫视帽臼谌ㄉ鳌⒉槐C芏河北大学学位论文独创性声明学位论文使用授权声明中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存朐谝陨舷嘤Ψ礁衲诖颉本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文贡献均已在论文中作了明确的说明并表示了致谢。论文。本学位论文属于
的学位溅是我个人蜊币四熙凰指导并荆币靡僦果,声明人:』绰爱掌冢阂灯埂辉虑鹑作者签名:羞避本人为申请河北大学学位所提交的题目为雅圜莲瓢苦蜘鷍蚕晃脸炼日期:麟年—隆G鹑日期:垡挚年隆簧保护知识产权声明导师签名:研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定容。如果违反本声明,本人愿意承担相应法律责任。的各项法律、行政法规以及河北大学的相关规定。本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内。
第滦髀研究背景系统中某一属性的一段取值或某~特征的取值,例如大小、颜色、形状等,连续的属性一过程就称为连续属性的离散化。连续属性的离散化是机器学习、数据挖掘的重要预处理步骤,离散化的好坏直接关系到数据挖掘或机器学习的效果,但在数据挖掘和机器学习的过程中,遇到的数据往往又是连续的,而大多数算法却只能处理离散化的数值,=惺萃诰虻一个很好的工具,但是该理论不能直接处理连续属性,而只能处理离散属性值,这样就大大限制了粗糙集理论的应用,为了拓宽粗糙集理论的应用范围,使粗糙集理论能够处库中的数据往往是很多的,里面存储了大量的、看似毫无规律可言的数据,如果不对这喻,只有将连续的属性数据进行离散简单化,才能够从这些含有连续属性的数据库中取得较好的数据集,从而得到效果好且简洁的规则,从这一方面说,离散化的结果将会减小数据存储对空间的占用,加快数据挖掘和机器学习算法的运行速度,减小算法的空间开销,并且可以提高分类精度。针对这个问题,目前己经出现了许多离散化算法,但找到一种通用的、效果好的离散化问题则不是一件容易的事,有专家证明,连续属性的最优离散化是一个难【】问题,面对的数据不同,所适用的离散化方法也可能不同,因此,在实际应用中,对于不连续属性通常被称为实数的、有序的或数值的属性,它表示了对象的可测量值,而离散属性又称为是类别的、符号的,或名称的属性,也就是用少量的离散值来表示信息值取自一段连续的区间,属性值之间没有明显的分割特征,是“杂乱的”,但是将这些连续的属性值根据某些方法可转化为不就交的子区间,每个子区间用一个整数表示,这散化,因此,连续属性的离散化的处理技术就越来越受到人们的重视。理连续属性,也必须将连续的属性进行离散化处理。在实际的使用中,我们得到的数据些数据进行简单化处理而是直接从数据中提取可用的信息,则消毫的时间和空间不言而同数据,选取不同的离散化方法也是非常重要的。
离散化算法的发展与现状离散化研究初期,连续属性的离散化并没有引起足够重视,而只是被当作数据挖掘、机器学习中的一种边缘性辅助工作。随着社会的不同需求,在现实中所涉及更多的是连续的数值属性,而更多算法又只能处理离散值,例如机器学习、数据挖掘算法要求所处理的属性是离散值,于是人们认识到,为了能够处理