文档介绍:第九章知识发现
史忠植
中科院计算所
2017/11/10
1
史忠植高级人工智能
内容
第一部分: 知识发现
第二部分: 数据库中知识发现
第三部分: 粗糙集
2017/11/10
2
史忠植高级人工智能
概述
数据变知识
信息变知识
2017/11/10
3
史忠植高级人工智能
知识发现
Gerwin在1974年开始机器发现的研究, 他研究噪声数据下归纳单变量复杂函数。
1978年,Buchanan和Mitchell开发META-DENDRAL,它可以发现规则, 描述怎样产生分子结构。
1977年Lenat开发的AM系统可以重新发现数论的数学概念。
从 1976年到1983年,Langley,Simon和Bradshaw 开发了BACON系统。
Kokar采用模型驱动,开发的COPER系统可以进行数值发现。
2017/11/10
4
史忠植高级人工智能
科学发现的过程
采集数据
寻找描述
形成理论
测试
2017/11/10
5
史忠植高级人工智能
科学发现与数据库中知识发现的不同
科学发现具有极强的目的性,是被控制的,其数据来自精心设计的实验, 去掉了无关因素,仅保留少数的参数,并对目标参数进行解释。而一般典型的商业数据库的记录,却具有许多信息以适应组织的不同目标的需要。
科学发现中可对实验重新设计,而一般数据库却不会频繁地改变它的结构,不会重新收集数据。
2017/11/10
6
史忠植高级人工智能
数据驱动知识发现——BACON
从1976到1983年,共研制了六个版本:
。
,增加了两种操作。一种用于计算差别以便发现递归序列,另一种用于产生多项式项。
。
。
, 简单的类比, 并能处理噪声。
, 使用差分技术, 寻找相关两项的最优的多项式函数。
2017/11/10
7
史忠植高级人工智能
BACON系统的特点
采用数据驱动
通过启发式约束搜索
依赖于理论数据项
递归应用一些通用的发现方法
2017/11/10
8
史忠植高级人工智能
BACON系统采用的一般方法
BACON产生函数,描述一组数据。
系统设个变量为常数, 仅一个变量改变,所以分析函数,而保持为常数。
BACON 处理数据时采用启发式,设是线性的,或者双曲线函数或,其中取决于变量。
如果这些假设之一符合数据,那么BACON分别导出假设
或者。所有这些都称为“理论项”。如果自变量是规范型, 随而改变,那么称其具有“本征特性”,其值赋给作为初值。
设或作为依赖的新变量。
假定(或),重复整个过程。
2017/11/10
9
史忠植高级人工智能
开普勒定律的训练实例
实例
行星
水星
1
1
金星
8
4
地球
27
9
2017/11/10
10
史忠植高级人工智能