文档介绍:第5章统计方法
本章目标
阐述统计推论在数据挖掘中的一些常用方法。
介绍评价数据集的差异的不同统计参数。
描述朴素贝叶斯分类和对数回归方法的内容和基本原理。
用列联表的相关分析介绍对数线性模型。
论述方差分析和多维样本的线性判别分析的一些概念。
统计学是一门收集、组织数据并从这些数据中得出结论的科学。数据集的一般特性的描述和组织是描述性统计学的主题领域,而怎样从这些数据推出结论是统计推理的主题。
统计数据分析是为数据挖掘制定的最好的一套方法论。从一元的到多元的数据分析,统计学为数据挖掘提供了大量的不同类型的回归和判别分析方法。
统计推断
在统计推断这个领域,如果观测到组成总体的所有观测值是不可能或不切实际的,只要关心怎样得出关于总体的结论。
在大多数统计分析应用中,必须依据从总体中抽取的子集的观测值。称这个子集为数据集,从这个数据集建立一个总体的统计模型,从而对相同的总体作推断。
问题是它可能导致对总体错误的推断,因此最好是在独立的、随机观察的情况下选取一个随机的数据集。
统计推断方法:估计和假设检验。
在估计中,为了估计系统的未知参数需要给出一个置信度或一个置信区间。
我们的目标是从数据集T中获得信息来估计现实系统f(X,w)模型的一个或更多的参数w。数据集可用下式描述:
T={(x11,…,x1n), (x21,…,x2n) (xm1,…,xmn)}
上式可作为一组具有相应特征值的样本被列成表格的形式。只要估计出这个模型的参数,就能用来预测随机变量Y,Y是T中固有的一个属性Y∈X。如果Y是数值数据,称为回归,如果是离散的、无序的数据,称为分类。
当估计出数据集的参数模型w后,就可用该模型(以函数f(X*,w)给出)的结论去预测Y。
预测值与真实值Y之间的差称为预测误差。
对于Y的预测值,模型f(X*,w)的自然属性度量指标是整个数据集T的期望均值平方差:
ET[Y-f(X*,w)2]
至于假设检验相关课程已有介绍。
评测数据集的差异
许多数据挖掘项目,了解给定数据集的更多有关中心趋势分布的一些特征是非常有用的。平均数mean、中位数median和众数mode是反映数据的中心趋势的典型指标,而方差和标准差是反映数据离散程度的指标。
平均数:
加权平均数:
中位数:对偏斜数据集来说,中位数更能反映它的中心趋势。
中位数=
n是奇数
n是偶数
众数:它是反映数据集中心趋势的另一个指标。众数是在数据集中出现频率最高的一个数据集。平均数和中位数主要反映数值型数据集的特征,而众数也适应于分类数据,但因它是不排序,所以必须有详细说明。
数值数据分散的程度为数据的离散度。反映离散度最常用的指标是标准差和方差。
n个数据值的x1,x2,…xn的方差是:
标准差是方差的平方根。其基本性质如下:
,仅当平均值作为中心的度量量使用。
,σ=0,否则σ>0。
贝叶斯定理
不难想象,数据不是总体或系统建模时惟一可利用的信息资源。贝叶斯方法提供了一套将外部客观信息溶入数据分析过程中的原理方法。它为解决归纳-推理分类问题的统计方法提理论依据。
贝叶斯定理:
设X是一个未知类标号的数据样本,设H为某种假定:数据样本X属于特定的类C。我们希望确定P(H|X),即给定观测数据样本X后假定H成立的概率。
贝叶斯定理给出数据集X后我们对假设的信任度的后验概率。贝叶斯定理提供了一种由概率P(H)、P(X)和P(X|H)计算后验概率P(H|X)方法,其基本关系是:
P(H|X)=[P(X|H)P(H)]/P(X)
P(H|X)是后验概率,或条件X下H的后验概率。例如,假设数据空间由水果组成,用它们的颜色和形状描述。假设X表示红色和圆的,H表示假定X是苹果,则P(H|X)反映当我们看到X是红色并是圆的时,我们对X是苹果的确信程度。作为对比,P(H)是先验概率,或H的先验概率。