文档介绍:该【核密度估计 】是由【雨林书屋】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【核密度估计 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。核密度估计
核密度估计
核密度估计
对于一组对于X和Y观察数据xi,yi
n
,我们假定它们存在以下关系:
i1
yimxii,平常我们的目的在于估计
mx的形式。在样本数量有限的情况下,我们
无法正确估计mx的形式。这时,能够采用非参数方法。在非参数方法中,其实不假定也不
固定mx的形式,仅假定mx满足必定的圆滑性,函数在每一点的值都由数据决定。显
然,由于随机扰动的影响数据有很大的颠簸,极不圆滑。因此要去除搅乱使图形圆滑。
最简单最直接的方法就是取多点均匀,也就是每一点mx的值都由离x近来的多个数
据点所对应的y值的均匀值获取。明显,假如用来均匀的点越多,所得的曲线越圆滑。当
然,假如用n个数据点来均匀,则mx为常数,这时它最圆滑,但失去了大量的信息,拟
合的残差也很大。因此说,这就存在了一个均衡的问题,也就是说,要决定每个数据点在估
计mx的值时要起到的作用问题。直观上,和x点越近的数据对决定mx的值所应起越
大的作用,这就需要加权均匀。因此,如何选择权函数来圆滑及圆滑到何种程度即是我们这
里所关心的核心问题。
一、核密度估计
对于数据x1,x2,K,xn,核密度估计的形式为:
f?h
1
n
xxi
x
K
h
nhi1
这是一个加权均匀,而核函数(
kernalfunction
)Kg
是一个权函数,核函数的形
状和值域控制着用来估计fx在点x的值时所用数据点的个数和利用的程度,直观来看,
核密度估计的利害依靠于核函数和带宽h的采用。我们平常考虑的核函数为对于原点对称的
且其积分为1,下面四个函数为最为常用的权函数:
Uniform:1
It
1
2
Epanechikov:3
1
t2It1
4
核密度估计
核密度估计
核密度估计
Quartic:151
t2
I
t
1
16
Gaussian:
1
e
1t2
2
2
对于均匀核函数,
K
x
xi
1
I
x
xi
1
x
xi
的绝对值
h
2
h
作密度函数,则只有
h
小于1(或许说离x的距离小于带宽
h的点)才用来估计
fx的值,可是所有起作用的数
据的权重都相同。
对于高斯函数,由
f?hx
的表达式可看出,假如
xi离x越近,x
xi越凑近于零,这
h
时密度值xxi越大,由于正态密度的值域为整个实轴,因此所有的数据都用来估计
h
f?hx的值,只可是离x点越近的点对估计的影响越大,当h很小的时侯,只有特别凑近x
的点才起较大作用,跟着h增大,则远一些的点的作用也随之增加。
假如使用形如Epanechikov和Quartic核函数,不仅有截断(即离x的距离大于带宽h
的点则不起作用),并且起作用的数据他们的权重也跟着与x的距离增大而变小。一般说来,核函数的采用对和核估计的利害的影响远小于带宽h的采用。
二、带宽的采用
核密度估计
核密度估计
核密度估计
带宽值的选择对估计量
f?hx的影响很大,假如
h太小,那么密度估计偏向于把概率密
核密度估计
核密度估计
核密度估计
度分派得太限制于观察数据周边,
以致估计密度函数有好多错误的峰值,
假如
h太大,那么
核密度估计
核密度估计
核密度估计
密度估计就把概率密度贡献散得太开,这样会圆滑掉
f
的一些重要特色。
核密度估计
核密度估计
核密度估计
因此,要想判断带宽的利害,
必定认识如何议论密度估计量
f?hx的性质。平常使用积
核密度估计
核密度估计
核密度估计
分均方误差
MSEh,作为判断密度估计量利害的准则。
核密度估计
核密度估计
核密度估计
MISEh
AMISEh
o
1
h4
,其中,
核密度估计
核密度估计
核密度估计
nh
核密度估计
核密度估计
核密度估计
K2xdxh44
f''x
2
AMISEh
dx
nh
4
称作渐进均方积分误差。要最小化
AMISEh,我们必定把
h设在某其中间值,这样
能够防范f?hx有过大的误差(过分圆滑)或过大的方差(即过于圆滑)
。对于h最小化
AMISEh表示最好是精准地均衡
AMISEh中误差项和方差项的阶数,
明显最优的带宽
是
1
K2
x
dx
5
h
(1)
f''
x
2
n4
dx
以下是几种常用的贷款选择方法:
1、拇指法例
简单起见,我们定义
Rg
g2zdz,针对最小化AMISE获取的最优带宽中含有未知量
Rf'',Silverman
提出一种初等的方法,rule
ofthumb(拇指法例,即依照经验的方法)
:
这就等于用R
''
把f用方差和估计方差相般配的正态密度代替,
^估计Rf''
其中
为
5
标准正态密度函数,若取
K为高斯密度核函数而
使用样本方差
?,Silverman
拇指法例
核密度估计
核密度估计
核密度估计
获取h
4
1
5
?
核密度估计
核密度估计
核密度估计
3n
2、Plug-in方法
?
''
该方法即是所谓的代入法,其考虑在最优带宽中使用某合适的估计
Rf
来代替
Rf''
,在众多的方法中,最简单且最常用的即是
SheatherandJones(1991;JRSSB)所提
?
f
''
?''
?''
出的R
Rf
而f的鉴于核的估计量为
f?''
2
1
n
xxi
x
x2
L
nh0
i1
h
1
n
''
x
xi
nh03
i1
L
h
其中h0
为带宽,L为用来估计
f''
的核函数。在对其平方并对
x积分后即可获取
Rf?''
。
核密度估计
核密度估计
核密度估计
估计
f
的最优带宽和估计
f''
或Rf''
的最优带宽是不一样样的。依照理论上以及经验上的考
核密度估计
核密度估计
核密度估计
虑,SheatherandJones建议用简单的拇指法例计算带宽
h0,该带宽用来估计
Rf''
,最
核密度估计
核密度估计
核密度估计
后经过(
1)式来计算带宽
h。
核密度估计
核密度估计
核密度估计