文档介绍：贝叶斯分类 2 ?贝叶斯定理?朴素贝叶斯分类?基本概念?具体实例?问题与解决方案?贝叶斯信念网络?基本概念?具体实例?训练贝叶斯信念网络?小结 3 贝叶斯定理? P(H) :先验概率? P(H|X) :后验概率——在条件 X下, H的后验概率,即给定观测数据样本 X,假定H成立的概率?X:数据元组——通常用 n个属性集的测量值描述?H:假设 4 贝叶斯定理? P(H|X)=P(X|H) * P(H)/P(X) ?∵ P(H ∩ X)=P(H) * P(X|H)=P(X) * P(H|X) ?即 P(H) * P(X|H)=P(X) * P(H|X) ?∴ P(H|X)=P(X|H) * P(H) /P(X) 5 朴素贝叶斯分类?朴素贝叶斯分类的工作过程如下: ?(1) 每个数据样本用一个 n 维特征向量 X = { x 1, x 2, ……,x n} 表示,分别描述对 n 个属性 A 1, A 2, ……,A n样本的 n个度量。 6 朴素贝叶斯分类?(2) 假定有 m 个类 C 1,C 2,…,C m, 给定一个未知的数据样本 X( 即没有类标号),分类器将预测 X 属于具有最高后验概率(条件 X 下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类 C i(1≤i≤m) 当且仅当 P(C i|X )> P(C j|X),对任意的 j =1 ,2,…,m, j≠i。这样,最大化 P(C i|X)。其P(C i|X) 最大的类C i称为最大后验假定。?根据贝叶斯定理: )( )()|()|(XP CPCXPXCP iii?朴素贝叶斯分类?(3) 由于 P(X) 对于所有类为常数, 只需要 P(X|C i)*P(C i)最大即可。如果 Ci 类的先验概率未知,则通常假定这些类是等概率的,即 P(C1)=P(C2)= …=P(Cm) , 因此问题就转换为对 P(X|Ci) 的最大化( P(X|C i) 常被称为给定 Ci 时数据 X 的似然度,而使 P(X|Ci) 最大的假设 Ci称为最大似然假设)。?否则,需要最大化 P(X|Ci) * P(Ci) 。注意,类的先验概率根据样本的类别区分计算。朴素贝叶斯分类朴素贝叶斯分类?(4) 给定具有许多属性的数据集,计算 P(X|C i) 的开销可能非常大。为降低计算 P(X|C i) 的开销,可以做类条件独立的朴素假定。?给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样)|()|( 1 i nk k iCxPCXP???联合概率分布朴素贝叶斯分类?(5) 对未知样本 X 分类,也就是对每个类 C i, 计算 P(X|C i)* P(C i)。?样本 X 被指派到类 C i, 当且仅当 P(C i|X )> P(C j|X),1≤j≤m,j≠i, 换言之, X 被指派到其 P(X|C i)* P(C i)最大的类。