1 / 4
文档名称:

核密度估计.docx

格式:docx   大小:36KB   页数:4页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

核密度估计.docx

上传人:雨林书屋 2023/2/22 文件大小:36 KB

下载得到文件列表

核密度估计.docx

相关文档

文档介绍

文档介绍:该【核密度估计 】是由【雨林书屋】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【核密度估计 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。核密度估计
核密度估计
核密度估计
对于一组对于X和Y观察数据xi,yi
n
,我们假定它们存在以下关系:
i1
yimxii,平常我们的目的在于估计
mx的形式。在样本数量有限的情况下,我们
无法正确估计mx的形式。这时,能够采用非参数方法。在非参数方法中,其实不假定也不
固定mx的形式,仅假定mx满足必定的圆滑性,函数在每一点的值都由数据决定。显
然,由于随机扰动的影响数据有很大的颠簸,极不圆滑。因此要去除搅乱使图形圆滑。
最简单最直接的方法就是取多点均匀,也就是每一点mx的值都由离x近来的多个数
据点所对应的y值的均匀值获取。明显,假如用来均匀的点越多,所得的曲线越圆滑。当
然,假如用n个数据点来均匀,则mx为常数,这时它最圆滑,但失去了大量的信息,拟
合的残差也很大。因此说,这就存在了一个均衡的问题,也就是说,要决定每个数据点在估
计mx的值时要起到的作用问题。直观上,和x点越近的数据对决定mx的值所应起越
大的作用,这就需要加权均匀。因此,如何选择权函数来圆滑及圆滑到何种程度即是我们这
里所关心的核心问题。
一、核密度估计
对于数据x1,x2,K,xn,核密度估计的形式为:
f?h
1
n
xxi
x
K
h
nhi1
这是一个加权均匀,而核函数(
kernalfunction
)Kg
是一个权函数,核函数的形
状和值域控制着用来估计fx在点x的值时所用数据点的个数和利用的程度,直观来看,
核密度估计的利害依靠于核函数和带宽h的采用。我们平常考虑的核函数为对于原点对称的
且其积分为1,下面四个函数为最为常用的权函数:
Uniform:1
It
1
2
Epanechikov:3
1
t2It1
4
核密度估计
核密度估计
核密度估计
Quartic:151
t2
I
t
1
16
Gaussian:
1
e
1t2
2
2
对于均匀核函数,
K
x
xi
1
I
x
xi
1
x
xi
的绝对值
h
2
h
作密度函数,则只有
h
小于1(或许说离x的距离小于带宽
h的点)才用来估计
fx的值,可是所有起作用的数
据的权重都相同。
对于高斯函数,由
f?hx
的表达式可看出,假如
xi离x越近,x
xi越凑近于零,这
h
时密度值xxi越大,由于正态密度的值域为整个实轴,因此所有的数据都用来估计
h
f?hx的值,只可是离x点越近的点对估计的影响越大,当h很小的时侯,只有特别凑近x
的点才起较大作用,跟着h增大,则远一些的点的作用也随之增加。
假如使用形如Epanechikov和Quartic核函数,不仅有截断(即离x的距离大于带宽h
的点则不起作用),并且起作用的数据他们的权重也跟着与x的距离增大而变小。一般说来,核函数的采用对和核估计的利害的影响远小于带宽h的采用。
二、带宽的采用
核密度估计
核密度估计
核密度估计
带宽值的选择对估计量

f?hx的影响很大,假如

h太小,那么密度估计偏向于把概率密
核密度估计
核密度估计
核密度估计
度分派得太限制于观察数据周边,

以致估计密度函数有好多错误的峰值,

假如

h太大,那么
核密度估计
核密度估计
核密度估计
密度估计就把概率密度贡献散得太开,这样会圆滑掉

f

的一些重要特色。
核密度估计
核密度估计
核密度估计
因此,要想判断带宽的利害,

必定认识如何议论密度估计量

f?hx的性质。平常使用积
核密度估计
核密度估计
核密度估计
分均方误差

MSEh,作为判断密度估计量利害的准则。
核密度估计
核密度估计
核密度估计
MISEh

AMISEh

o

1

h4

,其中,
核密度估计
核密度估计
核密度估计
nh
核密度估计
核密度估计
核密度估计
K2xdxh44
f''x
2
AMISEh
dx
nh
4
称作渐进均方积分误差。要最小化
AMISEh,我们必定把
h设在某其中间值,这样
能够防范f?hx有过大的误差(过分圆滑)或过大的方差(即过于圆滑)
。对于h最小化
AMISEh表示最好是精准地均衡
AMISEh中误差项和方差项的阶数,
明显最优的带宽

1
K2
x
dx
5
h
(1)
f''
x
2
n4
dx
以下是几种常用的贷款选择方法:
1、拇指法例
简单起见,我们定义
Rg
g2zdz,针对最小化AMISE获取的最优带宽中含有未知量
Rf'',Silverman
提出一种初等的方法,rule
ofthumb(拇指法例,即依照经验的方法)
:
这就等于用R
''
把f用方差和估计方差相般配的正态密度代替,
^估计Rf''
其中

5
标准正态密度函数,若取
K为高斯密度核函数而
使用样本方差
?,Silverman
拇指法例
核密度估计
核密度估计
核密度估计
获取h

4

1
5
?
核密度估计
核密度估计
核密度估计
3n
2、Plug-in方法
?
''
该方法即是所谓的代入法,其考虑在最优带宽中使用某合适的估计
Rf
来代替
Rf''
,在众多的方法中,最简单且最常用的即是
SheatherandJones(1991;JRSSB)所提
?
f
''
?''
?''
出的R
Rf
而f的鉴于核的估计量为
f?''
2
1
n
xxi
x
x2
L
nh0
i1
h
1
n
''
x
xi
nh03
i1
L
h
其中h0
为带宽,L为用来估计
f''
的核函数。在对其平方并对
x积分后即可获取
Rf?''

核密度估计
核密度估计
核密度估计
估计

f

的最优带宽和估计

f''

或Rf''

的最优带宽是不一样样的。依照理论上以及经验上的考
核密度估计
核密度估计
核密度估计
虑,SheatherandJones建议用简单的拇指法例计算带宽

h0,该带宽用来估计

Rf''

,最
核密度估计
核密度估计
核密度估计
后经过(

1)式来计算带宽

h。
核密度估计
核密度估计
核密度估计