文档介绍:贝叶斯分类
不难想象,数据并不是总体或系统建模是唯一可利用的信息资源。
贝叶斯方法提供了一套将外部客观信息融入数据分析过程中的原理方法。这个分析过程是先给出一个待分析数据集的概率分布。因为这个分布是没有考虑任何数据而给出的,所以称为先验分布。这个新的数据集将先验分布修正后得到后验分布。贝叶斯定理就是在知道新的信息后修正数据集概率分布的基本工具。
贝叶斯定理为解决归纳-推理分类问题的统计方法提供了理论背景。我们首先介绍贝叶斯定理中的基本概念,然后在运用这个定理说明朴素贝叶斯分类过程和简单贝叶斯分类。
设X是一个未知类标号的数据样本,设H为某种假定: 数据样本X属于某特定的类C。我们希望确定,即给定观测数据样本X后假定H成立的概率。它是表示给出数据集X后我们对假定的信任度的后验概率。相反,不管数据样本看上去如何,对于任何样本来说都是先验概率。后验概率
比先验概率基于更多的信息。
数据样本是数据挖掘过程的基本组成部分
贝叶斯定理提供了一种由概率、
和来计算后验概率的方法,其基本关系是:
现在假定有一组m个元素的样本S={ }(训练数据集),其中每一个样本代表了一个n维向量{ }。值分别和样本属性相对应。并且有k个样本类,
每一个样本属于其中一个类。另外给出一个数据样本X(它的类是未知的),可以用最高的条件概率来预测X的类,这里i=1,…,k。这是朴素贝叶斯分类的基本思想。
可以通过贝叶斯定理计算这些概率:
因为对所有的类别都是个常量,仅要求乘积的最大值。我们用下面的式子计算一个类别的先验概率。
= 类别的训练样本数量/m(m是训练样本的总数).
因为的计算是极其复杂的,特别是对大量的数据集来说,所以要给出零假设:样本各属性之间条件独立。利用这个假设,我们用一个乘积来表示.
= 其中是样本X的属性值,
能够通过训练数据集来计算.