1 / 32
文档名称:

数据挖掘概念与技术原书第2版第1章_概述.ppt

格式:ppt   页数:32
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概念与技术原书第2版第1章_概述.ppt

上传人:所以所以 2012/3/24 文件大小:0 KB

下载得到文件列表

数据挖掘概念与技术原书第2版第1章_概述.ppt

文档介绍

文档介绍:数据挖掘
第一章
概述
第一章引言
动机:为什么需要数据挖掘?
什么是数据挖掘?
对何种数据进行数据挖掘
数据挖掘功能
数据挖掘系统的分类
数据挖掘的主要问题
为什么要数据挖掘?
数据的爆炸性增长:从TB到PB
数据的收集和数据的可获得性
自动数据收集工具、数据库系统、WEB、计算机化的社会
丰富数据的来源
商业:WEB、电子商务、交易数据、股市...
科学:遥感、生物信息学、科学模拟
社会及每个人:新闻、数码相机、YouTube
我们被数据所淹没,但却渴望知识
“需要是发明之母”-数据挖掘:海量数据的自动分析技术
数据库技术的演化
1960s:
网络数据库、层次数据库(hierarchical DB systems)
1970s:
关系数据库模型和原型系统
1980s:
RDBMS
各种高级数据模型(扩展关系模型、OO等)
各类以应用为导向的数据库(地理、科学计算等)
1990s:
数据挖掘、数据仓库、多媒体数据库、WEB
2000s:
流数据管理和挖掘
数据挖掘及应用
WEB技术(XML等)
什么是数据挖掘?
数据挖掘(从数据中发现知识)
从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
一个不很恰当的名称
数据挖掘的替换词
数据库中的知识挖掘(KDD)
知识提炼
数据/模式分析
数据考古
数据捕捞、信息收获等等。
数据挖掘: 数据库中的知识挖掘(KDD)
数据挖掘——知识挖掘的核心
数据清理
数据集成
数据库
数据仓库
Knowledge
任务相关数据
选择
数据挖掘
模式评估
KDD的步骤
从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识
数据清理: (这个可能要占全过程60%的工作量)
数据集成
数据选择
数据变换
数据挖掘(选择适当的算法来找到感兴趣的模式)
模式评估
知识表示
典型数据挖掘系统的体系结构
数据仓库
数据清洗
过滤
数据库
数据库或数据仓库服务器
数据挖掘引擎
模式评估
图形用户界面
知识库
数据集成
为什么不是传统的数据分析?
海量数据
算法必须有高度的可扩展性,以有效处理TB级数据
高维数据
可高达数万个不同的维
数据的高度复杂性
流数据和传感数据
时间数据、序列数据、时序数据
图、社会网络、多关系数据
异构数据库和遗产数据库
空间数据、时空数据、多媒体、文本和WEB数据
...
新的、复杂的应用
并非所有的东西都是数据挖掘
以下不是数据挖掘系统
基于数据仓库的OLAP系统
机器学习系统,数据统计分析系统
信息系统
相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合
海量数据处理,强调的是算法的可扩展性
. 随着数据量的增加,算法运行时间的增长应该是接近线性的