1 / 14
文档名称:

数据挖掘十大经典算法.pdf

格式:pdf   大小:958KB   页数:14页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘十大经典算法.pdf

上传人:小辰GG 2022/7/29 文件大小:958 KB

下载得到文件列表

数据挖掘十大经典算法.pdf

文档介绍

文档介绍:: .
(1) KNN 算法: P( X = x | C = ci) 和 P( X = x) 的计算则较
困难。
应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学<br****即从样本数据中构造分类器,包括结构学****和 CPT 学****第二阶段是贝叶斯网络分类
器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取
决于特征值间的依赖程度,甚至可以是 NP 完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类
器,Naive Bayes、TAN、BAN、GBN 就是其中较典型、研究较深入的贝叶斯分类器。

朴素贝叶斯
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过
程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或
实例,对象等)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签
的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学****br/> 在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型 (Decision Tree Model)
和朴素贝叶斯模型(Naive Bayesian Model,NBC)。决策树模型通过构造树来解决分类问题。
首先利用训练数据集来构造一棵决策树, 一旦树建立起来,它就可为未知样本产生一个分类。
在分类问题中使用决策树模型有很多的优点, 决策树便于使用, 而且高效;根据决策树可以
很容易地构造出规则,而规则通常易于解释和理解;决策树可很好地扩展到大型数据库中,
同时它的大小独立于数据库的大小;决策树模型的另外一大优点就是可以对有许多属性的数
据集构造决策树。 决策树模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题
的出现,以及忽略数据集中属性之间的相关性等。
和决策树模型相比, 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及
稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比
较简单。理论上,NBC 模型与其他分类方法相比具有最小的误差率。但是实际上并非总是
如此,这是因为 NBC 模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,
这给 NBC 模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,
NBC 模型的分类效率比不上决策树模型 。而在属性相关性较小时,NBC 模型的性能最为良
好。
朴素贝叶斯模型:
----
Vmap=arg max P( Vj | a1,a2...an)
Vj 属于 V 集合
其中 Vmap 是给定一个 example,得到的最可能的目标值.
其中 a1...an 是这个 example 里面的属性.
这里面,Vmap 目标值, max 来表示
----
贝叶斯公式应用到 P( Vj | a1,a2...an)中.
可得到 Vmap= arg max P(a1,a2...an | Vj ) P( Vj ) / P (a1,a2...an)
又因为朴素贝叶斯分类器默认 a1...an 他们互相独立的.
所以 P(a1,a2...an)对于结果没有用处. [因为所有的概率都要除同一个东西之后再比较大
小,最后结果也似乎影响不大]
可得到 Vmap= arg max P(a1,a2...an | Vj ) P( Vj )
然后
&quot;朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。换言
之。该假定说明给定实力的目标值情况下。观察到联合的 a