1 / 8
文档名称:

增量和朴素贝叶斯学习.doc

格式:doc   大小:194KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

增量和朴素贝叶斯学习.doc

上传人:86979448 2017/12/10 文件大小:194 KB

下载得到文件列表

增量和朴素贝叶斯学习.doc

文档介绍

文档介绍:增量和朴素贝叶斯学****br/>查尔斯埃尔卡恩
加利福尼亚大学计算机科学与工程系
加利福尼亚州拉霍亚圣迭戈
92093-0114
******@
Technical Report No. CS97-557, September 1997
First version May 1997
摘要:虽然所谓的“朴素”贝叶斯分类是基于对一个实例的属性的值是独立鉴于类的不切实际的假设,但这种学****方法在实践中是非常成功的,据说已经没有更好的统一的学****方法了。由Yoav Freund和Rob Schapire提出的提升方法是一种结合多种分类器的一般方法,本文介绍了提升方法应用于朴素贝叶斯分类器领域的结合分类器,它是相当于前馈多层感知器标准。(其结果是,朴素贝叶斯分类是一个非参数、非线性的回归分析概括。)作为一个训练算法,增强型朴素贝叶斯学****与倒传递有很大的不同,具有一定的优势。增量仅仅需要的是线性时间和不断的空间,持续学****隐藏的节点,并且从最重要的开始。对于现实世界的数据集,这种方法的使用到目前为止已经盖棺定论了,泛化性能比使用其他学****方法所能得到的最好的结果一样好或者更好。不同于其他所有的标准学****算法,朴素贝叶斯学****不论有没有与增量相结合都可以在计算单位时间的对数与线性号码并行。因此,这些学****方法很可能作为一种动物学****的模型。其它参数也表明,他们在行为上也是可信的。
绪论
假如所给的例子的类和属性都相互独立的话,所谓的朴素贝叶斯学****是一种有监督学****的最佳方法。即使这种假设在实际应用中有所冲突,最近的研究表明,朴素贝叶斯学****在实际应用中非常有效并且难以做系统的提升[[Domingos and Pazzani,1996]。本文介绍了要有效得提升朴素贝叶斯分类器的泛化能力是有可能的,使用一种由
Freund and Schapire提出的增量。本文还认为不论有没有与增量相结合,朴素贝叶斯分类器作为动物和人类学****的一种模型在理论上和行为上都是可信的。特别的,我们认为当Freund and Schapire的AdaBoost的迭代算法应用于跟各种朴素贝叶斯分类器相结合,由此产生的组合在数学计算上相当于一种有稀疏编码输入、一个单隐层节点和S型激活功能的前馈神经网络。
作为一种学****运算,与增量相结合的朴素贝叶斯学****有重要的优势。第一,增量型朴素贝叶斯分类器的泛化能力是非常优秀的。在现实世界的例子下面讨论的数据集(在这里不讨论其他许多数据集)这样的分类器具有比任何已知的方法更好的测试准确性,。第二,这些分类器的学****非常有效。对于有f种属性的e个例子,一个增量朴素贝叶斯分类器的学****需要的时间是O(ef),即线性。没有其他的学****方法检测所有这些数据能够更快的了。除此之外,这种连续性的因素是非常小的。在一个现代化的工作站,一个增强型朴素贝叶斯分类器在一分钟之内能够学****维度为25的例子40000个。并且大多数的时间用于处理字符串数据。
朴素贝叶斯学****介绍
将属性值为离散的属性{A1,A2……AK}用于分类不相关的类别C。假设我们的观察到的属性值为{ a1,a2……aK },其最理想的分类类别为此概率最大的类别:
根据贝叶斯公式的定义可知,此概率等于
这种背景可能性或者基础概率Pr能够通过训练很简单得获得。样本的可能性