文档介绍:实验3:贝叶斯分类分类算法
实验3:贝叶斯分类分类算法
•实验目的:
• 1•掌握贝叶斯分类算法
2•熟悉C++编程
jin
• :
Example of naive Bayesian classifier(i)
training set:
Q: buys computer = ^yes^,. C2: buys_cotnputer = <4uo,?
nd
age
mcome
yt udent
credit
Class; buyon 1 puter
1
<30
h尊h
nu
fidr
no
2
<30
1丄妙
no
excellent
HQ
3
30-40
high
no
rair
ye
4
>40
mediyin
no
liur
yes
5
>40
low
yes
fair
yes
(5
>40
low
yea
excellent
no
30-40
low
yes
excellent
yes
&
5
inediuni
nu
liur
no
9
<30
low
yes
f<ur
yes
1U
A1U
mediuni
yea
fair
yea
11
<30
medium
yes
excellent
yes
12
3U-4U
medium
nu
excellent
yea
13
30-40
high
yes
fair
yes
14
medimn
nu
cxcelleiit
HQ
背景知识
朴素贝叶斯分类(续)
6
朴素贝叶斯分类
・朴素贝叶斯分类的工作过程如下:
(1)每个数据样本用一个门维特征向量X二{xr x2,……,xn}
表示,分别描述对/I个属性州,>a2, , 样笨的门个度量。
(2)假定有m个类C], C2, Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验 概率(条件X下)的类。也就是说,朴素贝叶斯分类将未 知的样本分配给类Cj (l<i<m)当且仅当P(Cj|X)> P(Cj|X), 对任意的丿丄],2, m, 7W0这样,最大化P(CjX)o其 P(C」X)最夭的类q称为最人启验假定。根据贝叶嶄定理
P{Ci \x)=
p(x ic”(q)
p(x)
朴素贝叶斯分类(续)
6
朴素贝叶斯分类
-(3)由于P(X)对于所有类为常数,只需要 P(X|Cj)*P(Cj)最大即可。如果Cj类的先验概率 未知,则通常假定这些类是等概率的,即 P(CJ二HC/…二P(cm),因此问题就转换为对 P(X|Cj)的靈大化(P(X|Cj)常被称为给定Cj时 数据X的似然度,而使P(X|Cj)最大的假设Cj称 力最大祕然浪设)O
•否则,需要最大化P(X|Cj)*P(Cj)。注意,类 的先验概率可以用P(Cj)二Sj/S计算,其中Sj是 类Cj中的训练卡羊本数,而s是训喙样本总薮。
朴素贝叶斯分类(续)
2013年3月28日星期四 DMKD Sides By MAO 8
朴素贝叶斯分类(续)
7
•⑷ 给定具有许多属性的数据集,计算P(X|Cj) 的开销可能非常大。为降低计算P(X|Cj)的开 销,可以做类条件独立的杯素假定。
•给定样本的类标号,假定属性值相互条件独 立,即在属性间,不存在依赖关系。这样
n
p(xicnp(xkicj联合概率分布
k = \
• (5)对未知样本X分类,也就是对每个类q, 计算 P(X|Cj)*P(q)。
朴素贝叶斯分类(续)
2013年3月28日星期四 DMKD Sides By MAO 8
朴素贝叶斯分类(续)
7
•样本X被指派到类Cj,当且仅当P(C.\X)> P(C\X), j^i,换言之,X被指派到其
P(X|Cj)*P(Cj)最大的类。