文档介绍:数据挖掘 Data Mining
闫雷鸣
2018/8/8
四、数据挖掘技术2
贝叶斯分类:为什么?
可能性学习
可能性预测
贝叶斯定理
给定训练数据 D, 条件h的后验概率
MAP 假设
MAP极大后验假设
学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)
确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下
最后一步,去掉了P(D),因为它是不依赖于h的常量
朴素贝叶斯分类
朴素假定: 属性独立
P(x1,…,xk|C) = P(x1|C)·…·P(xk|C)
假如 i-th 是分类属性:P(xi|C) 类C中属性 i-th 具有值xi
假如 i-th 属性连续的:P(xi|C) 通过高斯密度函数来估计
两种情况下计算容易
朴素贝叶斯分类(I)
朴素假定: 属性类条件独立:
大大降低计算开销,只计算类的分布.
朴素贝叶斯分类(II)
给定训练集,我们能计算出概率(出去打网球)
打网球实例: 估计 P(xi|C)
outlook
P(sunny|p) = 2/9
P(sunny|n) = 3/5
P(overcast|p) = 4/9
P(overcast|n) = 0
P(rain|p) = 3/9
P(rain|n) = 2/5
temperature
P(hot|p) = 2/9
P(hot|n) = 2/5
P(mild|p) = 4/9
P(mild|n) = 2/5
P(cool|p) = 3/9
P(cool|n) = 1/5
humidity
P(high|p) = 3/9
P(high|n) = 4/5
P(normal|p) = 6/9
P(normal|n) = 2/5
windy
P(true|p) = 3/9
P(true|n) = 3/5
P(false|p) = 6/9
P(false|n) = 2/5
P(p) = 9/14
P(n) = 5/14
打网球实例: 分类 X
X = <rain, hot, high, false>
P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 =
P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 =
样本 X 通过类 n (don’t play)来分类