文档介绍:方差分析
通常,在分析估计回归直线的性能和自变量对最终回归的影响时,用方差分析方法。
方差分析是一种主要用于线性回归模型中β值非零的情况下的识别方法。假设用最小二乘法已求出参数β的值,那么观察到的输出值和拟合值的差异是残差。
Ri=yi-f(xi)
对数据集中的m个样本,残差的大小和方差
σ2的大小是有联系的。方差可用下式估计:
式中分子是残差和,分母是残差的自由度。
分析步骤:
首先,计算模型所有输入的S2,然后一一删除这些输入,若删除一个有用的输入,S2
的估计值将会大幅度上升,若删除一个多余的输入,估计值不会有太大的变化。
在上述步骤的迭代过程中,引入F比率和F统计检验,形式如下:
若一个输入被删除后,F接近于1,新模型合适;若F值明显大于1,说明新模型不合适。应用迭代的方差分析方法,能识别哪一个输入和输出的相关的,哪些是不相关的。
下表是有3个输入的数据集的方差分析
情况
输入集
Si2
F
1
x1,x2,x3
2
x1,x2
F21=
3
x1,x3
F31=
4
x2,x3
F41=
5
X1
F52=
6
X2
F62=
上述分析结果,只有删除x3,F没有明显变化,其他情况F比值显著增加,因此可以删除,不影响模型的性能。
方差的多元分析是方差分析的一个推广,解决了输出不是单个数值而是一个向量的数据分析问题。方差的多元分析基于这样一个假设,输出变量间相互独立,采用一个多元线性模型来建模:
残差矩阵R为:
古典的多元分析也包含基本的分析方法,如一组样本向量如何转换为一组新的维数更少的样本向量。数据归约和数据转换中用到。
对数回归
线性回归用于对连续值函数进行建模。广义回归模型提供了将线性回归用于分类响应变量建模的理论基础,它最常见的形式是对数回归。
对数回归将某些事件发生的概率建模为预测变量集的线性函数。它不是预测因变量的值,而是估计因变量取给定值的概率p。例如,对数回归不预测顾客的信用等级是好是坏,而是试着估计顾客有好的信用等级的概率。
对数回归仅适用于输出变量是二元分类变量的情况。但输入变量也可以是定量的,它支持一般的输入数据集。假设输出Y有两个分类值编码为0和1,由数据集能计算出所给输入样本所产生的输出值取0和取1的概率。
对数回归的模型表示为:
输出用对数据是为了结果输出在[0,1]区间。
假设有一训练数据集,用线性回归建成模为:
并假设给出一新的待分类的样本,其输入值{x1,x2,x3}={1.,0,1},用上面模型可估计出输出值为1的概率。
根据概率p的最终结果,可推出输出值Y=1的可能性比分类值Y=0小。
和挖掘的其他方法对比较。
对数-线性模型
对数-线性建模是一种分类(或数量型)变量间关系的方法。对数-线性模型近似于离散的、多元的概率分布。它是一种假设输出Yi具有泊松分布的的广义线性模型,假设其期望值μj的自然对数是输入的线性函数: