文档介绍:数据挖掘原理与 SPSS Clementine 应用宝典元昌安主编 邓松李文敬刘海涛编著电子工业出版社第七章第七章贝贝叶斯分析叶斯分析本章内容本章内容贝叶斯定理贝贝叶斯定理叶斯定理贝叶斯分类贝贝叶斯分叶斯分类类 EM 算法 EM EM 算法算法贝叶斯定理贝叶斯定理贝叶斯分类贝叶斯分类?贝叶斯分类的基本过程?朴素贝叶斯分类?贝叶斯信念网络贝叶斯分类贝叶斯分类- - 基本过程基本过程贝叶斯分类方法基于贝叶斯定理进行分类,一般分为以下两个步骤: (1)建立分类模型,描述预定的数据类集或概念集。通过分析有属性描述的数据集中的属性来构造贝叶斯分类模型(2)使用建立的分类模型对新的数据集进行划分, 主要考虑分类规则的准确性、矛盾划分的取舍等。一个好的分类规则集合应该是对新的数据集而言具有很高的准确性、尽可能少的矛盾划分和较少的规则集。朴素贝叶斯分类朴素贝叶斯分类- - 贝叶斯假设贝叶斯假设朴素贝叶斯分类朴素贝叶斯分类- - 朴素贝叶斯计算朴素贝叶斯计算根据类属性的不同有不同的计算方法: ?离散属性的条件概率计算: ?连续属性的条件概率计算朴素贝叶斯分类提供了两种办法用来估计连续属性的条件概率: (1) 将连续属性离散化,使用离散区间来代理连续属性(2) 利用概率分布函数进行计算朴素贝叶斯分类朴素贝叶斯分类- - 贝叶斯信念网络贝叶斯信念网络贝叶斯网络具有如下的特点: 贝叶斯网络具有如下的特点: ??贝叶斯网络通过网络结构图的方法来描述数据间贝叶斯网络通过网络结构图的方法来描述数据间的关系,语意清晰,可理解性强,有助于利用数的关系,语意清晰,可理解性强,有助于利用数据间的因果关系进行预测分析。据间的因果关系进行预测分析。??贝叶斯网络适合处理不完整的数据。贝叶斯网络适合处理不完整的数据。??贝叶斯信念网络本身没有输入和输出的概念,各贝叶斯信念网络本身没有输入和输出的概念,各个结点的计算是独立的。个结点的计算是独立的。 EM EM 算法算法- - 基本概念基本概念 EM EM( (expectation-maximization expectation-maximization )算法是最)算法是最常用的从不完整数据条件下统计概率分布的方法。常用的从不完整数据条件下统计概率分布的方法。它是它是““求期望求期望- -取最大取最大””的迭代循环过程, 的迭代循环过程, ““求期求期望望””步骤计算不完整数据样本中每个事件在当前概步骤计算不完整数据样本中每个事件在当前概率分布条件下发生的期望充分统计量; 率分布条件下发生的期望充分统计量; ““取最大取最大””步骤按照期望分布统计量把不完整数据转换成完整步骤按照期望分布统计量把不完整数据转换成完整数据,找到使似然性最大的概率分布。数据,找到使似然性最大的概率分布。