文档介绍:第四章统计判别
作为统计判别问题的模式分类
模式识别的目的就是要确定某一个给定的模式样本属于哪一类。
可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类。
作为统计判别问题的模式分类
在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生。
例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是直角三角形。
这种现象是确定性的现象,前一章的模式判别就是基于这种现象进行的。
但在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性。
只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性。
特征值不再是一个确定的向量,而是一个随机向量。
此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小。
作为统计判别问题的模式分类
贝叶斯判别原则
两类模式集的分类
目的:要确定x是属于ω1类还是ω2类,要看x是来自于ω1类的概率大还是来自ω2类的概率大。
贝叶斯判别
作为统计判别问题的模式分类
贝叶斯判别原则
例子
对一大批人进行癌症普查,患癌者以ω1类代表,正常人以ω2类代表。
,即P(ω1)=,当然P(ω2)=1-=
现任意抽取一人,要判断他是否患有癌症。显然,因为P(ω2)> P(ω1),只能说是正常的可能性大。如要进行判断,只能通过化验来实现。
作为统计判别问题的模式分类
贝叶斯判别原则
例子
设有一种诊断癌症的试验,其结果为“阳性”和“阴性”两种反应。
若用这种试验来对一个病人进行诊断,提供的化验结果以模式x代表,这里x为一维特征,且只有x=“阳”和x=“阴”两种结果。
作为统计判别问题的模式分类
贝叶斯判别原则
例子
假设根据临床记录,发现这种方法有以下统计结果
患有癌症的人试验反应为阳性的概率=,即p(x=阳| ω1)=
患有癌症的人试验反应为阴性的概率=,即p(x=阴| ω1)=
正常人试验反应为阳性的概率=,即p(x=阳| ω2)=
正常人试验反应为阴性的概率=,即p(x=阴| ω2)=
作为统计判别问题的模式分类
贝叶斯判别原则
问题
若被化验的人具有阳性反应,他患癌症的概率为多少,即求P(ω1 | x=阳)=?
这里P(ω1) 是根据以往的统计资料得到的,为患癌症的先验概率。现在经过化验,要求出P(ω1 | x=阳),即经过化验后为阳性反应的人中患癌症的概率,称为后验概率。
[计算]
作为统计判别问题的模式分类
贝叶斯最小风险判别
当考虑到对于某一类的错误判决要比对另一类的判决更为关键时,就需要把最小错误概率的贝叶斯判别做一些修正,提出条件平均风险rj(x)。
M类分类问题的条件平均风险rj(x)
对M类问题,如果观察样本被判定属于ωj类,则条件平均风险为:
Lij称为将本应属于ωi类的模式判别成属于ωj类的是非代价。
作为统计判别问题的模式分类