1 / 14
文档名称:

空间统计与空间数据挖掘之地统计分析.doc

格式:doc   大小:23KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

空间统计与空间数据挖掘之地统计分析.doc

上传人:燕燕盛会 2022/5/7 文件大小:23 KB

下载得到文件列表

空间统计与空间数据挖掘之地统计分析.doc

文档介绍

文档介绍:精品范文模板 可修改删除
免责声明:图文来源于网络搜集,版权归原作者所以
若侵犯了您的合法权益,请作者与本上传人联系,我们将及时更正删除。
撰写人:___________日 期:___________
数据变换,另一大功能便是识别异常值。全局异常值是相对于数据集中的所有值具有异常高值或低值的样本点;而局部异常值是指对于一个样本点,其取值范围对于整个数据集来说是处于一个正常的范围内,但对于与其相邻的周边的样本值相比呈现异常情况。从数据集中识别出异常值具有十分重要的意义,一方面,异常值可能是空间现象分布中的异常情况,另一方面,则可能是单纯的错误数据,均需要引起特别注意,进行变换处理或剔除。
精品范文模板 可修改删除

免责声明:图文来源于网络搜集,版权归原作者所以
若侵犯了您的合法权益,请作者与本上传人联系,我们将及时更正删除。
单数据集方法 直方图(histogram),比如最大最小值、平均值、标准差、中位数等。如下图所示,可以看出,对于垃圾站的日处理量这个属性并不是呈典型的正态分布,并且在右上角的图例中可以看到一系列常规的统计指标,用于参考。。如下图所示,数据并没有呈现典型的正态分布,我们可以通过数据变换功能十分便捷的对垃圾站数据进行变换,期望能得到近似的正态分布,分别进行对数变换以及Box-Cox变换()。可以看到,进行对数变换的结果也不是特别理想,而进行Box-Cox变换则得到了相对近似的正态分布。 ,通过探索性分析工具得到数据集的直方图之后,选择直方图尾部的样本点,这些样本点往往会呈现异常高值或低值。当然,通过这样选取的异常点十分不精确,需要进一步的分析验证,才能决定是数据异常还是单纯的数据错误。如下图所示,选取直方图中的尾值,可以发现这些垃圾站点均为日处理量1000吨以上。voronoi地图 。如下图所示,基于市区内每个垃圾站点数据,相对应的生成了各自的voronoi多边形。每个点对应的voronoi多边形的面积的倒数可以作为一个评价点局部密度的指标,还可以帮助我们判断点集的分布属于哪一种形式(随机分布或者集聚、规则分布)。例如下图右下角,多边形面积小且数量较多,可以看到垃圾站点的分布相对集中。,不仅可以通过多边形的大小密度来识别样本值的总体分布情况,还可以根据其中一个多边形与相邻多边形的差异情况来识别研究对象中的异常值。以上图为例,可以很容易找出颜色与周围多边形明显差异的样本点,查看其属性可知,该点所指示的垃圾站的日处理量为1500吨/天,远高于相邻的几个样本点的值,查看其它样本也可以同样得出此结果。正态QQPlot分布图该统计量用于评估所研究的数据集是否表现为正态分布。简单来说,即是使用研究的对象数据集与正态分布的标准数据集对比得出差异,用于观测数据集的相关特征。如下图所示,垃圾站点的经度属性并非典型的正态分布数据,但数据点与正态分布线相对接近,从统计学意义上来说,是有研究意义的。同直方图分析方法一样,QQPlot图也可以对统计分布结果做Box-Cox变换、对数变换已经反函数变换。如下图所示,对垃圾站日处理量数据,在正态QQPlot图的基础上,进行对数变换和Box-Cox()变换,(trend analysis)用于查看和检查数据集中的空间趋势。同样以垃圾站数据为例,对于垃圾站的日处理量这一属性,图中底面一根垂直的黑色竖线代表一个样点,蓝色和绿色分别代表两条趋势线。如果经过投影点的趋势线是平的,那么说明不存在趋势。从下图可以看出垃圾站日处理量的属性存在一定的趋势,但是具体的趋势需要更深入的分析才能得出。
半变异/。,那么这些异常值在半变异云中也将具有高值,可以结合半变异函数云图与直方图,筛选出数据集中比较突出的异常值,在进行检验之后可以进行错误值的校正或直接剔除。需要注意的是,半变异函数中存在两个点的主要地层,如果选取上层地层中的点,可以发现所有高值来自与单个位置的配对,可以说这些上层点都通过单个异常值配对创建,而下层点则是通过剩余的位置配对创建。以上介绍的几种方法,每次可以用于分析一个数据集的探索性空间属性