1 / 44
文档名称:

_空间数据挖掘与知识发现概述.ppt

格式:ppt   页数:44
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

_空间数据挖掘与知识发现概述.ppt

上传人:所以所以 2012/2/25 文件大小:0 KB

下载得到文件列表

_空间数据挖掘与知识发现概述.ppt

文档介绍

文档介绍:空间数据挖掘与知识发现概述 Introduction to SDM and SKD
高勇
北京大学遥感与地理信息系统研究所
数据挖掘的发展动力
数据爆炸问题
数据自动收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。
数据极大丰富(data rich),知识极其匮乏(knowledge poor)
解决方法:数据仓库技术和数据挖掘技术
数据仓库(Data Warehouse)和在线分析处理(OLAP)
数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据挖掘的著名案例
一则广为流传的案例:啤酒和尿布的故事
美国加州某个超市连锁店发现
在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒
处理
重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置
结果
上述几种商品的销量几乎马上成倍增长
数据、信息、知识、理解、先知
人类大脑包涵的内容,分为五类(Russell Ackoff)
数据(Data)
符号(Symbols )的集合,未加工、较为原始的形态
信息(Information)
数据经过处理后,有意义的,具有利用价值的,能够回答4W (“who”, “what”, “where”, “when”)等问题
知识(Knowledge)
实践中产生、经过实践检验的一种客观规律。(信息经过加工和改造成为知识),能够回答“how”的问题
理解(Understanding)
“why”的正确评价􀂙
先知(Wisdom)
理解的进一步提升
数据、信息、知识和先知的关系
知识发现
knowledge discovery in database (KDD)
extract useful information from massive amounts of data in support of decision making (Gardner 1996, Hedberg 1996, Bhandari 1997)
理论基础
大型数据库中隐藏着有趣的模式
这些模式是有效的、新颖的、有用的、可理解的
传统数据库的查询和统计方法不能从大型数据库中提取这些有趣模式
数据类型的复杂性
模式的新颖性
KDD的步骤
知识发现的步骤(Fayyad 1997)
data warehousing
target data selection
cleaning
preprocessing
transformation and reduction
data mining
model selection (bination)
evaluation and interpretation
consolidation and use of the extracted knowledge
KDD的过程
数据清理
数据集成
数据选择
数据变换
数据挖掘(核心)
模式评估
知识表示
数据清理
数据集成
数据库
数据仓库
Knowledge
任务相关数据
选择
数据挖掘
模式评估
KDD与数据挖掘
观点:数据挖掘是KDD的一个步骤
data mining
is only ponent (albeit a ponent) of the larger KDD process.
involves distilling data into information or facts about the domain described by the database.
KDD
is the higher-level process of obtaining information through data mining and distilling this information into knowledge (ideas and beliefs about the domain) through interpretation of information and integration with existing knowledge.
为了简便,人们常常用数据挖掘来代替数据挖掘和知识发现
数据挖掘的概念(1)
从大量数据中提取或发现(挖掘)知识的过程。
从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
数据集:一组事实F,如关系数据库中的记录
模式:一个用语言L表示的一个表达式E,它可以用来描述数据集F的一个子集FE ,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)
过程:需要多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精。

最近更新

2026年元旦联欢会900字作文 10页

2023年吉林省松原市单招职业适应性考试题库附.. 40页

2023年吉林铁道职业技术学院单招职业倾向性考.. 42页

2023年咸宁职业技术学院单招职业倾向性测试题.. 40页

2023年哈密职业技术学院单招职业技能考试题库.. 40页

2023年哈尔滨城市职业学院单招职业倾向性测试.. 39页

2023年哈尔滨应用职业技术学院单招职业技能考.. 40页

2023年唐山工业职业技术学院单招职业适应性考.. 40页

2023年唐山科技职业技术学院单招职业技能测试.. 41页

2023年商丘学院单招职业适应性考试模拟测试卷.. 39页

2023年喀什职业技术学院单招职业技能测试题库.. 39页

2023年嘉兴南湖学院单招职业适应性考试题库必.. 39页

2023年四川中医药高等专科学校单招职业技能测.. 42页

2023年四川信息职业技术学院单招职业倾向性考.. 41页

2023年四川商务职业学院单招职业适应性考试模.. 41页

2023年四川工业科技学院单招职业倾向性考试题.. 41页

2026年元宵节的作文怎么写怎么写 11页

2023年四川应用技术职业学院单招职业适应性测.. 41页

2026年元宵节猜灯谜作文800字 13页

2023年四川文化艺术学院单招职业倾向性测试题.. 40页

2023年四川现代职业学院单招职业倾向性测试题.. 40页

2023年四川电子机械职业技术学院单招职业技能.. 40页

2023年四川航天职业技术学院单招职业技能考试.. 42页

2023年四川财经职业学院单招职业倾向性考试题.. 39页

2023年四川长江职业学院单招职业倾向性考试模.. 41页

2023年塔城职业技术学院单招职业技能考试题库.. 41页

2023年大庆职业学院单招职业技能考试模拟测试.. 42页

2026年元宵节作文800字小学 21页

2026年元宵节600字优秀作文 12页

2025年广州卫生职业技术学院单招职业技能测试.. 64页