文档介绍:Spss的数据预处理
一、 数据预处理的目的:
在数据文件建立好后,通常还要对待分析的数据进行必要的预加工处 理,这是数据分析过程中不可缺少的一个关键环节。数据的预加工处理是服 务与数据分析和建模的,需要解决的问题如下:
1、缺失值和异常数据的处理。
2、数据的转换处理。数据的转换处理是在原有数据的基础上,计算产生 一些含有更丰富信息的新数据或对数据原有分布进行转换等。
3、数据抽样。从实际问题、算法或效率等方面考虑,并非收集到的所有 数据(个案)在某项分析中都有用途,有必要按照一定的规则从大量 数据中选取部分样本参与分析。
4、选取变量。并非所有数据项(变量)在某项分析中均有意以,选取部 分变量参与分析是必要的。
Spss提供了一些专门的功能辅助用户实现数据的预加工处理工 作,通过预处理还可以使用户对数据的总体分布有所了解。
二、数据预处理步骤:
1、数据的排序:
(1)数据排序的目的:
a、通常数据编辑窗口中个案的前后次序是由数据数录入的先后顺序决 定的,数据排序便于数据的浏览,有助于了解数据取值状况、缺失
值数量的多少。
b\、通过数据排序能够快速找到最大值和最小值,进而可以计算出数 据的全距,快速把握和比较数据的离散程度。
C、通过数据排序能够快速发现数据的异常值。
(2)、数据排序的步骤:
a、选择菜单:【Date]—> [Sort Cases]
b、指定主排序量到【Sort byl框中,并选择[Sort Order]框中的 选项指出
该变量按升序还是降序排序排序。【Ascending】表示升序, (Descending]表
示降序。
3如果是多重排序,还要依次指定第二、第三排序变量及相应的排 序规则。否
则本部可略。
排序窗口如下图:
Sort Cases
<folD 晶学生编号 珍A1
坊A2
/A3
A4:A[A4A] 夕 A4:B[A4B] 夕 A4:C [A4C] 冷 Ad-n rAdni
Sort by: 晶年级(A) 温专业(A}
Sort Order @ Ascending ©descending
图I
2、变量计算:
(1)变量计算的目的:
a、通过数据的转换处理,在原有数据的基础上,计算产生一些含量更 丰富的新数
据。
b\、对数据的原有分布状态进行转换,由于数据分析和建模中某些模型 对数据分布
有一定的要求,因此可以利用变量计算对原有数据的分布进行转换。
c、spss变量计算是在原有数据的基础上,根据用户给出的spss的算术 表达式以及
函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。
(2)变量计算的操作步骤:
、选择菜单:[Transform] 一 [Compute Variable]
出现如图2所示窗口:
图2
b、在【Numeric Excprcssion】框给出spss算术表达式和函数。可以手工输入也可
以按窗口的按钮算数表达式和函数的输入工作。
c、在【TargetVariable】框中输入存放结杲的变量占。
d\、如果用户只希望对符合一定条件的个案计算产生变量,则按if按钮,出现如
图3所示的窗口。选择[Include if case satisfies condition]选项,然后输入条
件 表 达 式
否 则 本 步 略 去
6出生日期fbdalc] 方死亡日期Wda回
Variable: If Cajrcs
• Includecaveu
Include 11 case satisfies condition:
_l dJ±J±l
_d -J_J ±Ld3
±l jJjJ _LJ_J
・[ Illi De* I
Function?!* | ▲ |
ABS{iiomcxpr)
ANY(lc$Cv?....| ARSlN(numexpr) ARTAN(nuinexpr) CDFNORM(zvalueJ (q,p]
| Continue | Cancel Help
3、变量的选取:
(1)数据选取的目的:
a、提高数据的分析效率。
段检验模型。
(2)数据选取的步骤:
a、 [Date] —> [Select Case]
b、在fSelcct]框中选择选取方法。如图4所示:
Select Cases对话框
图4
4、计数:
(1)计数的目的:
把握个案各方面的特征。
(2)计数的步骤:
a、选择菜单:[Transform] 一 (Count Values within Cases]如图 5 所示:
b、选择参与计数