文档介绍:该【数据挖掘综述课件 】是由【012luyin】上传分享,文档一共【51】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘综述课件 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘综述
1数据挖掘技术的由来
激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
进化阶段
商业问题
支持技术
产品厂家
产品特点
数据搜集(60年代)
“过去五年中我的总收入是多少?”
计算机、磁带和磁盘
IBM,CDC
提供历史性的、静态的数据信息
数据访问(80年代)
“在新英格兰的分部去年三月的销售额是多少?”
关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft
Oracle、Sybase、Informix、IBM、Microsoft
在记录级提供历史性的、动态数据信息
数据仓库;决策支持(90年代)
“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”
联机分析处理(OLAP)、多维数据库、数据仓库
Pilot、Comshare、Arbor、Cognos、Microstrategy
在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行)
“下个月波士顿的销售会怎么样?为什么?”
高级算法、多处理器计算机、海量数据库
Pilot、Lockheed、IBM、SGI、其他初创公司
提供预测性的信息
2数据挖掘的定义
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.
数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.
3数据挖掘的研究历史和现状
1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。