1 / 5
文档名称:

连续数据的离散化研究[开题报告].doc

格式:doc   页数:5
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

连续数据的离散化研究[开题报告].doc

上传人:问道九霄 2012/4/12 文件大小:0 KB

下载得到文件列表

连续数据的离散化研究[开题报告].doc

文档介绍

文档介绍:(2011届)
本科毕业论文(设计)
开题报告
题目: 连续数据的离散化研究
学院: 数学与信息工程学院
专业: 信息管理与信息系统
班级:
学号:
姓名:
指导教师:
教务处制
一、选题的背景、意义
21世纪以来,随着科学技术和社会生产力的迅速发展以及人们认识和管理水平的提高,同时伴随着信息化,电子化进程的发展,信息处理在整个社会规模上迅速产业化。同时计算机和信息技术的高速发展给人类社会带来了巨大的变化和影响,数据库管理系统的日益普及,使人们能够非常方便地获取和存储大量的数据,数据成为了最重要的战略资源。
如今,随着计算机、网络和通讯等信息技术的高速发展,当今社会已经进入了网络信息时代,计算机技术得到了迅猛的发展,特别是存储技术、数据库技术和网络技术,信息处理在整个社会规模上迅速产业化,在技术表现为整个社会对大规模数据操作的产业化。存储设备单位价格的不断下跌而容量的急剧扩大,关系数据库、对象数据库、多媒体数据库、地理信息数据库和空间数据库的不断成熟并得到广泛的应用,数据库管理系统的日益普及,这使得人们所积累的数据越来越多,并且数据与信息系统中的不确定性更加显著。海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识贫乏的现象”。例如,商业上条形码的普遍使用,使得每天很多行业都积累了数以万计的数据,各种同步卫星每小时传回地球的遥感图像数据就达50千兆字节。要把大量的数据作为信息,信息成为知识,知识付诸于应用,已使一些传统的方法感到无能为力。
海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段。因此,如何从大量的、杂乱无章的、强干扰的数据中挖掘出潜在的、有利用价值的信息,便成为人类智能信息处理中面临的前所未有的挑战。由此产生了人工智能研究的一个崭新领域一一数据挖掘(Data Mining,简称DM)。
实际数据库中存在较多的连续型数值属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对连续属性进行离散化。因此,连续属性离散化方法成为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。
由于各种相关领域的实际应用的推进,对于连续数据的离散化算法取得了突飞猛进的发展,连续属性的离散化问题被广泛研究,并取得了大量成果,研究人员从不同领域提出了多种离散化方法。
连续数据离散化技术在传统的机器学习中被当作边缘性课题而没有受到足够的重视,随着近年来数据挖掘的不断更新发展,数据离散化在数据挖掘技术中渐渐显现出其不可替代的重要性,在规则提取、特征分类等很多算法中,尤其是在应用粗集理论进行数据挖掘的研究中,连续属性数据必须进行离散化。但作为一种相对比较新兴的领域,其现有的算法还远没有达到领人满意的程度。因此,本人认为对连续数据的离散化研究是当今国内的一个重要的课题。
为数据