文档介绍:基于粗糙集与决策树理论的时态增量算法摘要时态数据挖掘是数据挖掘中一个重要的研究课题,有其自身的特点,它需要在数据挖掘过程中考虑数据集中各数据之间存在的时间关系。决策树和粗糙集是数据分类的两个最重要的方法,决策树在知识表示上有层次、自然和推理易理解的特点,而粗糙集理论在处理数据模糊和不确定性方面有着优势,对于增量时态数据,我们将借鉴决策树算法思想对转换后的时态序列数据处理,在构造决策树过程中,利用粗糙集理论来优化决策树的构造和规则的提取,从而提出一种新的增量式分类挖掘算法。本文首先给出了与时态数据有关的数学概念以及相关性质,介绍了时态数据转化方法并给出了其改进的算法。然后介绍决策树分类算法和粗糙集基础理论,接着分析了决策树分类算法固有的缺点以及应用于时态数据分类挖掘中的缺点,提出了基于粗糙集与决策树理论的时态增量算法,最后给出算法的应用实例,对股票的数据进行分析,给出实验结果。本文的主要贡献是提出了改进的时序转化方法,在构建决策树的过程中,优化了信息熵的计算,提出了时间特性属性组合的思路和用粗集理论的相关概念对生成的决策树进行剪枝处理思路,在增量数据处理问题上,针对本文的时态数据处理方法,
理方法。本文所做的贡献对于时态数据分类挖掘具有一定的意义。关键词:时态数据,分类挖掘,时态数据转化,决策树算法思想,粗糙集理论,增量式挖掘浙江工业大学硕士学位论文基于粗糙集与决策树理论的时态增量算法
,,,浙江工业大学硕士学位论文基于粗糙集与决策树理论的时态增量算法甌,瑆、析。
篢;,;;;浙江工业大学硕士学位论文基于粗糙集与决策树理论的时态增量算法,疭..
刷程轹盖确作者签名:易铋放作者签名:二豸携拉日期豳牌肛月喝学位论文版权使用授权书浙江工业大学学位论文原创性声明⒉槐C艽日期:乃膨年/钐月乡日期:沙∥年,召月;本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于⒈C芸冢年解密后适用本授权书。■
髀课题研究的背景及意义科研机构到政府部门,从金融行业、零售行业到机械制造行业,从通讯、医疗到间序列数据上进一步加工变形的含时间属性的数据。目前,越来越多的系统应用要求可以管理那些被处理事件的历史性信息和系历史数据0凑昭芯康南窒蠡蛭侍獾牟煌梢缘玫礁髦质碧荨@绻善狈量的一系列数据,其自然顺序就是按出现的时间先后排列而得到的时态序列。自互影响、相互作用的,一个事物的运动、变化和发要受到其它事物的影响和制约,信息技术的发展极大的提高了人们产生、搜集和存储数据的能力。从企业、保险,社会各个部门、经济系统和专业领域每时每刻都在生产和累积大量数据。人们所保存的数据中,有许多是时间序列数据和时态数据。时间序列数据是数据序列的一个现实反应,也就是指观察、测量或记录下来的一串按时间先后顺序排列的而又相互关联的数据序列。时态数据是对时间序列的升华,是在观察到的时统中元事件的时态信息,如:金融、医疗、保险、气象等与历史密切关联的应用系统不仅需要处理当前的数据,同时也需要处理和查询过去曾经发生的数据析员观察某个股票价格指数的波动笱Ъ已芯磕车厍钠掠虢涤炅康谋浠水文专家研究某流域水位与降雨量的变化关系等,都会观测到按某种度量单位测然界以及社会生活中的各种事物都是在运动、变化和发展着的。事物之间也是相同时,它的发展变化也影响和制约着其它事物。通过对记录各个事物运动、变化、发展的时态数据的分析研究,可以揭示事物发展变化的内部规律,以及不同事物之间的相互作用关系,这对于人们正确认识事物并以此为据做出科学的决策具有重要的现实意义。随着时态数据越来越普及,可以预见,时态数据挖掘ɑ崾墙窈笫萃诰蚍⒄沟囊桓龇浅W匀欢质种匾5姆较颌蟆人们采用数据挖掘技术对这些时态数据进行分析目的就是为了能获得隐含的规则来提供决策。分类在数据挖掘中是一项非常重要的任务,有很多用途,比如说预测,即从历史的样本数据推算出未来数据的趋向。然而,时态数据固有的带有时间维度的特点,使得传统的数据挖掘分类算法不能直接处理,将时态数据进行转换,降维处理,