文档介绍:概率数据库理论
计本一班
李东伟
The theory of probabilistic databases
简介
在许多现实的应用中,如过程监控,决策分析,遥感等领域,数据的不确定性普遍存在。传统的数据管理技术却无法有效管理不确定性数据,人们开始探讨数据不确定性的本质。
上世纪八十年代末开始出现的概率数据库(probabilistic database)研究,这一研究认为元组在数据库中的存在具有不确定性、属性值具有不确定性、查询应答也具有不确定性。
但是,一直以来,人们对不确定性问题认识不足,这也决定了人们对待不确定数据管理的态度,很多研究工作虽然遇到了不确定性问题,但往往采取传统的“去除不确定性”方法避开对不确定数据的管理。
课程关系C
属性
属性值
关系模式
元组1
元组2
元组3
关系状态
举个简单的例子来比较一下确定与不确定数据
精确集合
13
1
X=6
举个简单的例子来比较一下确定与不确定数据
1
13
模糊集合
数据库存储信息。信息的存储形式,历来被认为是简单的事实,如“Supplier X supplies part Y“
从数据建模的观点看,许多情景要求更复杂是信息形式可以用来回答下面这样的问题。
。
,那么他还会买产品Y有多大可能性(或者说他再买Y的可能性会不会更大?
,则关于Y的有多少额外的信息能有Z提供。
随着信息管理技术的发展,现代社会已步入信息社会,信息量与日俱增。而与此相矛盾的是,在某一方面,信息量又显得非常匮乏,所掌握的信息也同时存在不确定性和不完全性。
1:实体(Entity)与实体集
实体是指客观存在并可以相互区分的事物。具有相同属性的实体可构成一个实体集。
2:属性
属性(Attribute)是指实体集中所有实体所具有的共同特征。
3:联系与联系集
联系(Relationship)是指实体集间有意义的相互作用。实体间的联系有一对多联系,一对多联系和多对多联系。具有相同属性的联系属于同一联系集(Relationship Set)。
班级名
学生
班级
属于
班主任
姓名
性别
年龄
学号
学生
性别
年龄
学号
班级
姓名
学生
性别
年龄
学号
M
N
这里,我们需要先来简介下传统的数据库。
在传统数据库的应用中,数据的存在性和精确性均确凿无疑。在关系数据库模型概念中最重要的是信息与信息保存。关系模型的基本原理是信息原理:所有信息都表示为关系中的数据值。
通常,一个关系数据库(RDB)被定义为一个有限的关系集合,其中每个关系是一个笛卡尔积的子集,称为域(domain)。也就是域是一组具有相同数据类型的值的集合。
一个关系通常是由赋予它的元组语义来确定的。凡符合元组语义的那部分元素的全体就构成了该关系模式的关系。
定义:设有属性集A1和A2分别在值域D1和D2中取值,则两个属性集的笛卡尔积定义为:
笛卡尔积是集合论中的基本概念之一,由下面的定义给出。
例如,A={a,b},B={0,1,2},则
AxB={<a,o>,<a,1>,<a,2>,<b,0>,<b,1>,<b,2>,}
BxA={<0,a>,<0,b>,<1,a>,<1,b>,<2,a>,<2,b>}
下面我们先来说一下笛卡尔积。
则D1,D2,D3的笛卡尔积为:
D1×D2×D3 =
{(张清玫,计算机专业,李勇),
(张清玫,计算机专业,刘晨),
(张清玫,计算机专业,王敏),
(张清玫,信息专业,李勇),
(张清玫,信息专业,刘晨),
(张清玫,信息专业,王敏),
(刘逸,计算机专业,李勇),
(刘逸,计算机专业,刘晨),
(刘逸,计算机专业,王敏),
(刘逸,信息专业,李勇),
(刘逸,信息专业,刘晨),
(刘逸,信息专业,王敏) }