1 / 123
文档名称:

bigdata数据挖掘培训3.ppt

格式:ppt   大小:2,698KB   页数:123页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

bigdata数据挖掘培训3.ppt

上传人:1723063821 2018/8/8 文件大小:2.63 MB

下载得到文件列表

bigdata数据挖掘培训3.ppt

文档介绍

文档介绍:数据挖掘 Data Mining
闫雷鸣
2018/8/8
四、数据挖掘技术2


贝叶斯分类:为什么?
可能性学习
可能性预测
贝叶斯定理
给定训练数据 D, 条件h的后验概率
MAP 假设
MAP极大后验假设
学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)
确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下
最后一步,去掉了P(D),因为它是不依赖于h的常量
朴素贝叶斯分类
朴素假定: 属性独立
P(x1,…,xk|C) = P(x1|C)·…·P(xk|C)
假如 i-th 是分类属性: P(xi|C) 类C中属性 i-th 具有值xi
假如 i-th 属性连续的: P(xi|C) 通过高斯密度函数来估计
两种情况下计算容易
朴素贝叶斯分类(I)
朴素假定: 属性类条件独立:
大大降低计算开销,只计算类的分布.
朴素贝叶斯分类(II)
给定训练集,我们能计算出概率(出去打网球)
打网球实例: 估计 P(xi|C)
outlook
P(sunny|p) = 2/9
P(sunny|n) = 3/5
P(overcast|p) = 4/9
P(overcast|n) = 0
P(rain|p) = 3/9
P(rain|n) = 2/5
temperature
P(hot|p) = 2/9
P(hot|n) = 2/5
P(mild|p) = 4/9
P(mild|n) = 2/5
P(cool|p) = 3/9
P(cool|n) = 1/5
humidity
P(high|p) = 3/9
P(high|n) = 4/5
P(normal|p) = 6/9
P(normal|n) = 2/5
windy
P(true|p) = 3/9
P(true|n) = 3/5
P(false|p) = 6/9
P(false|n) = 2/5
P(p) = 9/14
P(n) = 5/14
打网球实例: 分类 X
X = <rain, hot, high, false>
P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 =
P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 =
样本 X 通过类 n (don’t play)来分类

最近更新

关于降解“陈酿”酒中乳酸乙酯的试验研究 2页

关于铁路桥梁孔径计算方法的若干问题 2页

关于酚醛树脂及其制品的试验研究 2页

2025年足跟骨折康复攻略 71页

关于规定荷载下柱截面设计方法的探讨 2页

低碳约束下港口竞争力评价及提升路径研究 10页

关于经济政策学研究内容的思考 2页

关于科技情报研究成果的评定问题 2页

关于直流接触器出厂试验冷态吸合电压换算公式.. 2页

关于电位法在缓慢裂纹增长过程中的应用及理论.. 2页

关于焊接接头微区断裂韧度的研究 2页

幼儿园教育的目的与内容完美 49页

关于沈阳有色金属加工厂技术档案干部职称问题.. 2页

《在大多数广告中》 27页

关于斜板在配筋方向的弯矩计算公式的讨论 2页

关于改进师局单位会计核算方法的探讨 2页

关于推广应用电子计算机工作若干财务问题的解.. 2页

2025年细菌真菌生存分布揭秘 64页

2025年石油加工催化剂项目合作计划书 63页

2025年熔断器项目发展计划 51页

平面图形的周长和面积复习课市公开课一等奖市.. 18页

2025年混合气项目合作计划书 61页

人教版数学高一必修一1.1-2集合的表示 23页

2025年电动工具合作协议书 56页

2025年玻璃钢制品合作协议书 63页

库迪咖啡品牌合作协议 5页

我的大学梦主题班会 29页

(完整版)小学生必背古诗词80首 2页

计算机专业毕业论文3000字 6页

CNAS-EL-03《检测和校准实验室认可能力范围表.. 10页