1 / 37
文档名称:

空间统计-空间数据预处理.docx

格式:docx   大小:1,129KB   页数:37页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

空间统计-空间数据预处理.docx

上传人:guoxiachuanyue007 2022/12/22 文件大小:1.10 MB

下载得到文件列表

空间统计-空间数据预处理.docx

相关文档

文档介绍

文档介绍:该【空间统计-空间数据预处理 】是由【guoxiachuanyue007】上传分享,文档一共【37】页,该文档可以免费在线阅读,需要了解更多关于【空间统计-空间数据预处理 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第1章空间数据处理

现实中采集的原始数据很多可能都是杂乱的、不完整的、有噪声的,常常还有多种不同类型,而且往往是高维度的,也就意味着有极多的可测量特征。在数据分析步骤之前,必须对数据进行预处理,这样可以提高需要分析的数据质量,从而提高数据分析的效率和效果。
数据预处理一般包括两个部分,分别是数据准备和数据归约。要把杂乱、有噪音的原始数据集变成具有标准形式、优化后的分析数据集,要经过清洗、转换(数据准备),以上工作对于中小型数据集就可以了,如果是大型数据集还需要进行缩减(数据归约)。见错误!未找到引用源。数据预处理过程。
数据预处理过程
,分别是数据清洗和数据转换。前者解决数据的完整和准确问题,后者解决数据分析的效果和效率问题。
数据清洗(DatqinaCleaning)过程将数据集中的噪声数据识别、删除,同时纠正不一致的数据。错误的数据容易干扰数据分析过程的正常进行,甚至导致结果的准确性降低。包括两个部分,缺失值补齐和异常点分析。
初始数据集应包含丢失值、失真、误记录和不当样本等,对于缺失值,要么补全,要么选择健壮模型来降低敏感性。对于异常值需要非常小心,不能轻易丢弃,也有可能是研究母体的不寻常样本。
一些数据分析方法可以接受丢失值,其他方法则需要所有的值。若样本足够大可以去除包含丢失值的所有样本,否则需要补齐缺失值。一般可以采用三种方法。首先,对于数量较小的数据,可以手动检查缺失值样本,根据经验加入可能的合理的值,但这样做可能会引入一个噪点值。其次,可以应用一些常量自动替换缺失值,如使用一个全局常量、特征平均值、给定类型的特征平均值去替换缺失值。这样可能会形成一个未经客观证明的正因素。最后,可以生成一个预测模型来推断每个丢失值。如果丢失值总能预测就证明这个特征在数据集中是冗余的带有丢失值的特征和其他特征之间的关联应该是不完全的。不是所有的自动方法都能补上正确的丢失值。
通常有一些样本不符合数据模型的一般规则,这些样本和其他数据有很大的不同,叫做异常点。如年龄为负数,子女达到23个,前者肯定错误,后者不寻常,需要核对。需要在数据中检测出异常观察值,并在适当时候去出。自动去处异常点时要非常小心,因为所去处的异常数据可能是正确的,而且包含重要的隐藏信息。寻找异常点分为两个步骤,首先找出“正常”行为规律,然后使用“正常”规律来检测结果。常用方法主要有图形或可视化技术,基于统计、距离、模型的技术。
数据转换(DataTransformation)操作,是指将数据源数据变换为适合数据分析的数据形式。有三种方法,标准化、数据平整、差值和比例。
将测量值按照比例映射到一个特定范围,如[-1,1],[0,100],等,常用的三种简单方法包括小数缩放、最小-最大标准化、标准差标准化。
数值型特征y可能包含许多有微小差别的值,如对于数据集{,,,,},通过下舍上入,给定精度平整化后应该为{1,1,1,3,3}。对于数据分析来说,这些差别并不重要,让其保留不仅消耗大量计算资源,而且影响分析结果。
即使对特征很小的改变,也能显著地提高数据分析的能力,两类简单转换,差值和比例可以改进对目标描述。如实际数据分析应用范围包括时间强相关、时间弱相关、时间无关问题。在空间统计分析中,常常会涉及到时间问题,因此对含时间数据的准备和转换非常重要。。在这个问题中,变量X在某个时点的值应和它的以前值有关系。其值序列可表示如下:X={t(1),t(2),…,t(n)},其中,t(n)是最近的观察值。多数情况下,把
t(n+1)-t(n)作为预测结果比t(n+1)更好,同样,t(n+1)/t(n)比率揭示了变化率,有时用这个比值能得到更好的预测结果。
以上描述了数据准备阶段涉及到的数据清洗和数据转换内容,对于大型数据集来说,以上的结果数据维度太大,特征值的取值范围太广、样本量太大,会消耗太多的计算资源,分析结果不一定好,所以需要化简,就是要进行数据归约。数据归约包括三种方法,特征规约、值规约和案例规约。

数据归约(DataReduction)策略是从一个大型数据集中得到一个小型的数据集,并且这个小型数据集有原数据集的完整性。小型是指在特征数量、取值结果、样本数量上相较于原始数据都要小。使用该小型数据集进行数据分析可以使计算效率更高,并且分析结果与使用原数据样本集的结果基本相同。实际上是对原始数据集的一个保真约减过程,以便于数据分析时聚焦和降低计算复杂度。
大多数现实中的数据维度都很高,但是并非所有特征都很重要,甚至可能包含许多不相干的干扰信息,造成所谓的“维度灾害”。通过减少数据维度不仅可以加快计算速度,还能确保合理的准确性。因此需要特征规约,维规约技术即可以把已有的特征转换为一组新的规约特征,还可以选择已有特征的一个子集,前者是“特征提取”,后者是“特征选择”。二者都是一个降维操作。
用新的较小的包含了输入所有特征的函数得到的特征集来表达就是特征提取。结果维度是初始维度的线性或非线性组合。常用方法包括因子分析(FA)、独立成份分析(ICA)和多维缩放(MDS)。从数据中删除大多数非相关特征和冗余特征,选择出相关特征的一个子集就是特征选择。需要对特征的重要性进行计算并排序,然后根据排序确定选择哪些靠前的特征。常用的有Relief算法,熵度量方法,主成分分析等方法。
值规约就是减少已知特征的离散值数目。技术上是将连续性特征的值离散到少量区间,对每个区间赋予一个离散符号。从而达到简化技术描述,数据及分析结果易于理解。传统的离散化是根据以前特征知识手工完成的,如人的年龄指定为连续型变量(0〜150岁),实际中可以分为几段:儿童、青少年、***、中年、老年。这种规约有两个问题,怎样确定分割点,怎样选择区间表述。而在自动离散化有如下技术,如根据均值和众数将值进行分箱处理,还有一种是利用
2统计进行自动离散的ChiMerge技术。
案例规约是在已经进行了数据准备的数据集中选出一个有代表性样本子集。确定适当子集大小,需要考虑计算成本、存储要求、估计量精度、算法和数据的其他特性等因素。通常,子集的大小要满足如下条件:使整个数据集的估计误差不超过样本规定的误差限。根据取样方法的应用范围来分,可以分为普通用途和特殊用途的。一般只针对属于前者的技术,一种是系统化取样,如等距取样,第二种是随机取样,这是使用最多的,包括不放回和放回两种方式。第三种是分层取样,第四种是逆取样。
总而言之,数据源中的数据一般都是含有噪声、不完整、不一致、高维度、过多取值、数量庞大。所以对数据源数据通过数据准备和数据归约进行预处理是十分重要的。从而提高数据质量,提高数据分析结果的有效性和准确性。
目的
<I
0
步骤
结果
理范浪归歎朋瞬■史后瘻I?用
帝乱前、半兗鑿的*巧囁声的,常常迸有实科^!■丘眞型,[H且柱在是宸纸虫时負盼奴据
SPSS,Pytlion
对于芒球矢虫蛍聃,戎么舌畀*疋么补全fe?矢郃曲。
敎据诉洗
I
用禹、鑽型竝超异常点,珀定是去雎还是第要塑点关注、
•最丈,痴进差等方法3寸販洁戢据进疔标瞪牝
从尿幽垃拒旳多亍広先申识別出単御为片飾分*或奢岳这空属性级一定方式棗兰起来.
数据转撰
敕曙取蚪
把啟值废迁歆据进一沟5-t故
把序列甑揣中相连%两及通过歪丑香商戎均
标捲形式,优北的券听故储一
將匹蛭取值昭取此
从尿幽斗本中}4麻一亍也ItS先子帖
数据预处理
数据预处理过程
数据预处理思维导图如上。在其步骤中并非都是必选的,更具实际情况进行选择。

在我国监测数据采取统一上报的形式,因此监测数据一般是存储在数据库中的,在录入数据时是某一地区某一样本检测某一物质为录入的一条数据,例如食品污染物监测数据的原始数据格式如错误!未找到引用源。所示。但该数据格式无法直接连接到ArcMap中,必须经过一些必要的数据整理,使之变成一个地区某一污染物含量为一个值,如错误!未找到引用源。所示。
全国各省大米污染物监测数据
样品编号
监测单位地区
样品名称
检测物质类别
检测值
#######11
湖南省
早籼米

#
#######11
湖南省
早籼米
总***
#
#######11
湖南省
早籼米

#
#######11
湖南省
早籼米
总***
#
#######12
湖北省
晚稻153

#
#######12
湖北省
晚稻153
总***
#
#######12
湖北省
晚稻153

#
#######12
湖北省
晚稻153
总***
#
注:#为任意值
全国各省大米污染物平均水平
监测单位地区镉总***总***铅
河北省##############################
湖南省##############################
湖北省##############################
四川省##############################
注:#为任意值
【案例1-1】
利用Excel和R软件,将数据库导出的数据整理成可以导入ArcMap的数据形式。本节所用的数据为全国各省矢量地图()、食品稻谷污染物数据(,数据为随机生成数据),数据在光盘中获取。部分数据分别展示如表1-1、图1-2、图1-3所示。
案例分析导图
sheng^hp

:朮十饮仁
^p
数抿库轩土如:T-r^-ii
样品产地样品编号样品宕称
玄祸甘J砧匸
狞染樹类别
检测值

安徽省
2

轴省
3

q

5

reodo/O
librar^{hreshape-;
3世〕
拝品产他枠品编号详品皆柠

忌***总坤
1
辎咎
A0873
-

-^.191,
虫敲習2
稻咨
0-156
-D-忱35
-0,0D350«171
3
稻眷
。・061?
Q■為9
0-.1Q4

4


匸伽
®l
-
3
山1C1
(X1強
-
ElJLA岂囲
【讦棲市壬麻1f【许£1T崩手凌轴L【世订连擀】-【笳
ru>
Jhwc■
2ML'X«
In
jf4t~1
tv
tJTri
GTt
.JiK^
.豳诡
.4&
>

=P*
B4i
■;wr
:HS?I
”iFg
■■:E>
・l:ES
H
■";■
c,lri-
\w”
一1*.;L
D
1
IF
•W
-.■AU
m
.L只圧1

3
A
*+fri
节I*
.rtiMS-i
■Lli^
.沏盟
.LKW3

计旳
■1*
w
冷LM
时曲
■XA1P
LEE
17

JfWTWzfi
・”
■砂
-E
.ana
EKP
P
■MlBUI
■-'
1“*
叫,7
j:4ii
|i*|^
”^TS;H<
10
0
1SWHW
^B'triH.
•-5L^±-3
fXKr
.iiar
2:©L
1MWI
IO
*
lUYTM-sn
jJI削
■Irilia
:cMitq
HIT3>
.iTKRT
图1-1数据整理思维导图
1)了解数据
表1-1全国稻谷污染物数据(模拟数据)
样品产地
样品编号
样品名称
污染物类别
检测值
安徽省
1
稻谷


安徽省
2
稻谷


安徽省
3
稻谷


安徽省
4
稻谷


安徽省
5
稻谷


安徽省
6
稻谷


安徽省
7
稻谷


安徽省
8
稻谷


安徽省
9
稻谷


安徽省
10
稻谷


=Ox
圄”1醋T响戲
d日ng
FID
Shanc+
ZOHECODE
NAldE
4
0

LLCOOOO?
北京H
1
1白

山吩
V
K
21000000
■zi冬
J
3
ifL
22000000
吉林笞
4
Iff
:iicnnnrri
卜沁丄
5

L2C00003
天津市
6
iT
L3OOOOOO
訝」在
7

28000000
黑龙;江省
tJ

3E0000Q0
•二齐亠
9
52COOOO3
贵州省
lu
|白
43OOOCOO
訓南省
H
■4
0卜»■冒目(0/?4
或融I
图1-2全国地理数据属性
-南海诸
图1-3全国地市地图(2)数据变形
首先使用R软件将一维数据变多维数据,R语言程序如下:步骤1:去除R工作空间中可能遗留的变量。
rm(list=ls())
步骤2:加载数据变形命令包,第一次使用前必须先进行安装,在弹出的镜像中
就近选择,如“Beijing”
("reshape")
步骤3:设置R的工作目录为数据文件所在目录,并读取数据。,header=T说明表中第一行为目录。
rice<-("C:\\Example\\Data\\\\全国稻谷污染物数
",header=T)
步骤4:数据变形。cast命令使用方法如下:
cast(data,formula=...~variable,=NULL,value=
guess_value(data))
其中:
data:需要变形的数据集
formula:变形公式,格式参照变形后目录顺序,“〜”右边为需要变为目录的变量,在该例中为各种污染物的检测污染物。
:对数据的计算,取mean时表示符合某条件的值有一个时,
对应值为原值,当符合某条件的值有多个时,对应值为平均值。
guess_value(data):指定将该数据从一维变为多维,在这里是各种污染物的检测值。
library("reshape")
ricelv-cast(rice,样品产地+样品编号+样品名称+采样日期〜污染物类另U,mean,value=”检测值”)
得到的数据形式如表l-2所示:
表l-2全国各省大米污染物监测数据
样品产地
样品编号
样品名称


总铬
总***
总***
安徽省
1
稻谷

-

-

安徽省
2
稻谷

-

-

安徽省
3
稻谷





安徽省
4
稻谷



-

安徽省
5
稻谷



-

安徽省
6
稻谷



-

安徽省
7
稻谷



-

安徽省
8
稻谷

-

-

安徽省
9
稻谷

-



安徽省
10
稻谷



-

3)数据***
用R程序对各地区污染物含量求平均值,R语言程序如下:
Hg_mev-tapply(ricel$镉,ricel$监测单位地区,mean)得到的数据形式如表2-5所示:
表l-3全国各省大米污染物监测数据
样品产地


总铬
总***
总***
安徽省



-

福建省





广东省





广西壮族自治区



-

贵州省



-

海南省

-



河南省





黑龙江省



-

湖北省



-

(4)数据连接
将食品污染物连接到地理数据上,打开ArcGIS软件,新建一张空白地图在新建地图上拖入全国各省的地理数据,如图l-4所示。
图l-4拖入全国各省地图左击省所在的图层【打开属性表】,可以看到地理数据,如图l-2所示此时地理数据并未有和任何食品污染物数据连接。左击省所在的图层【连接
或关联】-【连接】,打开连接数据设置框,如图1-5所示: