1 / 22
文档名称:

贝叶斯分类.ppt

格式:ppt   大小:455KB   页数:22页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

贝叶斯分类.ppt

上传人:windurst 2022/7/30 文件大小:455 KB

下载得到文件列表

贝叶斯分类.ppt

相关文档

文档介绍

文档介绍:贝叶斯分类方法
●贝叶斯分类法是统计分类方法。可以预测类隶属关系的概率,
如给定的元组属于一个特定类的概率。
●朴素贝叶斯分类法假定一个属性值在给定类上的影响独立于 t_type=保险) ×
P(income=medium|Invest_type=保险)
=
P(X|储蓄)=P(occupation=work|Invest_type=储蓄)×
P(age=middle|Invest_type=储蓄)×
P(income=medium|Invest_type=储蓄)
=

 

综上所述,对于元组X,朴素贝叶斯分类预测元组X的类为Invest_type=储蓄。
注意:在计算的过程中有可能遇到某个属性在某个类中概率为0,如果没有这个零概率,可能表明该元组属于该类的概率很高,但由于这个零概率使得 的概率为零!
解决办法,如果假定训练数据库D很大以至于对每个计数加上一造成的概率变化可以忽略不计,但方便地避免概率值为零。
基本知识
1、事件概率
联合概率(joint probability)
表示A事件和B事件同时发生的概率, P(A ∩ B)。
条件概率(conditional probability)
在发生A的条件下,发生B。的概率,称为P(B|A)
2、乘法法则(Multiplicative rule)
3、独立事件
贝叶斯信念网络
●朴素贝叶斯分类法假定类条件独立,这一假定简化了计算。当假定成立时,朴素贝叶斯方法是最准确。然而,实践中,变量之间可能存在依赖关系。
●贝叶斯信念网络说明了联合条件概率分布,它允许变量的子集间定义类条件独立性。
●贝叶斯信念网络由两个成分定义:有向无环图和条件概率表的集合。
图中的每个节点代表一个随机变量,变量可以是连续的或离散值,对应于数据中的是属性,或隐藏变量。图中的每条弧表示一个概率依赖。
注意:给定其双亲,每个变量条件独立于图中它的非后代。
对于每个变量,信念网络都有一个条件概率表(CPT)。变量Y的CPT说明条件分布P(Y|Parents(Y)),Parents(Y)是Y的双亲。
●设 被变量或属性 描述的数据元组。因此,联合概率分布的完全表示为:
●网络内的节点可以选作"输出"节点,代表类标号属性。可以有多个输出节点。分类的过程不是返回带个类标号,而是可以返回概率分布,给出每个类的概率。
贝叶斯分类的原理:利用训练元组给出的先验概率来计算后验概率。即已知某个未分类的元组来计算它属于某个类的概率。

训练贝叶斯信念网络(构建信念网络过程)
●贝叶斯信念网络有两部分构成:
有向无环图(网络拓扑):一般由专家给出,也可以由数据导出。
网络拓扑的作用是明显的展现了各变量之间是否独立,对后续构造CPT表时提供了依据。
●构造CPT表
,CPT表的构成很容易。与朴素贝叶斯分类涉及的概率计算很类似。
(在某些元组中缺失或不完全),CPT的形成有多种方法。如EM法和梯度下降法。
当变量都是可观测时CPT的构造及应用举例:
由此对于每个变量得到的CTP表:
由于R没有双亲,所以R取先验概率。
由左图给出,它对下雨(R)引起草地变湿(W)建模。天下雨的可能性为40%,并且下雨时草地变湿的可能性为90%;也许10%的时间雨下得不长,不足以让我们真正认为草地被淋湿了。
在这个例子中,随机变量是二元的:真或假。存在20%的可能性草地变湿而实际上并没有下雨,例如,使用喷水器时。
变量湿地(W)的CPT表如下:
根据此训练网络可以推测出草地变湿下雨的概率(将下雨看做类属性)
这里 的计算利用的是全概率计算。全概率计算公式: