1 / 22
文档名称:

2-数据文件的建立与编辑.pdf

格式:pdf   大小:3,792KB   页数:22页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2-数据文件的建立与编辑.pdf

上传人:百里登峰 2023/3/19 文件大小:3.70 MB

下载得到文件列表

2-数据文件的建立与编辑.pdf

文档介绍

文档介绍:该【2-数据文件的建立与编辑 】是由【百里登峰】上传分享,文档一共【22】页,该文档可以免费在线阅读,需要了解更多关于【2-数据文件的建立与编辑 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:.
第二讲:数据文件的建立与编辑管理
一、数据文件的建立
1、测量方式(Measure)
运用统计学方法分析时十分强调“对号入座”。SPSS中变量有三种测量方式,分别是:
尺度变量(Scale)
顺序变量(Ordinal)、
分类变量(Nominal):
各对应与统计学中的计量资料、等级资料以及计数资料(包括二分类与无序多分类)。在SPSS的
默认的情况下,所有的数值、文字输入都将被作为Scale处理,不同的是输入数值将完整保留,而文
字全都是被转变为。
2、定义变量(VariableView)
运行SPSS后,将进入DataEditor界面,如下:
窗口顶部显示为“SPSSDataEditor”,表明现在所看到的是SPSS的数据管理窗口。这是一个典型
的Windows软件界面,有菜单栏、工具栏。特别的,工具栏下方的是数据栏,数据栏下方则是数据管
理窗口的主界面。该界面和EXCEL极为相似,由若干行和列组成,每行对应了一条记录(Case),每
列则对应了一个变量(Variable)。由于现在我们没有输入任何数据,所以行、列的标号都是灰色的。
请注意第一行第一列的单元格边框为深色,表明该数据单元格为当前单元格。如果直接输入数据很可
能不能满足统计分析的要求,所以首先要定义变量。单击VariableView:
:.
这就是变量定义窗口,我们需要对变量名称(Name)、类型(Type)、宽度(Width)、小数位数
(Decimals)、变量标签(Label)、变量值标签(Values)、缺失值(Missing)、显示数据的宽度(Columns)、
对齐方式(Align)、测量方式(Measure)。
Name:总长度不可以超过8个字符(4个汉字);系统不分大小写,首字符必须是字母(或汉字),其
后可接字母或数字,尽量不要在变量名称中使用标点符号或运算符号(例如:?、-、!、*等);
不可以将下划线“_”和圆点“.”作为变量名的最后一个字符(但是在中文输入法,例如清
华紫光时上述法则有时不成立);变量名不可使用“all、and、by、eq、ge、gt、le、ne、not、
or、to、with等SPSS系统保留字。
Type:在SPSS系统中,共有8种类型的变量设置,单击Type:
Numeric:标准数值型;这是系统默认型别,可以在width和decimal中调节总长度与小数位
数(小数点也占一位)。
Comma:带逗号的数值型;整数部分从右向左每3位加一个逗号;,
如果选择comma,则按照6,;。
Dot:带句号的数值型;整数部分从右向左每3位加一个圆点而小数点表达为逗号;例如原始
,如果选择dot,,12录入;在dataview中SPSS仍将表达
,12。
Scientificnotation:科学计数型;,,
+01(×101)表达。
Date:日期型;使用者可以从系统提示的日期显示形式中选择自己需要的;
例如选择dd-mmm-yyyy,则2009年2月20日应该输入为20-FEB-2009;如果选择:.
mm/dd/yyyy,则应该输入为02/20/2009。但是无论是何种输入方式,data型资料将不能
直接参与运算,必须通过有关的日期转换函数转换后才行。
Dollar:带美元符号的数值型;使用者可以从系统提供的形式中选择,系统将自动生成美元符
号。默认为11位数(1000亿),如果超出将按照科学计数法表达,同时数据前加美元
符号。
Customcurrency:自定义数值型;共有5种形式,系统将其分别命名为CCA(CC为custom
currency的简写,A表示第一种)至CCE,可以在edit-option-currency选项卡中作
定义,定义之后可以从sampleoutput预览修改结果。
String:字符串型;选择该中表达类型后,使用者可以在dataview中输入中文或英文。字符
串型变量不能参与统计运算,而且字符串中大小写字母将被系统辨认为两个完全不同
的字符。
Width:输入时的变量值宽度,默认为8位。
Decimals:小数位数,默认为2位。
Label:变量标签;用于说明变量所代表的实际意义,特别对于在name中无法准确表达的变量名称可
以通过标签详细说明。
Values:变量值标签;用于详细说明变量值的具体意义,特别是对于分类变量或等级变量往往用具体
数值代替分类或等级,此时最好定义数值的变量标签以备分析与查阅方便。例如变量名称为
sex,其label为调查对象性别,values分别是0代表男性、1代表女性。:.
Missing:缺失值定义;在统计数据录入过程中有时会遇到观察值不详或数据录入失误,此时可以定
义缺失值。
Nomissingvalues:无缺失值,系统默认。
Discretemissingvalues:离散的缺失值;例如性别的取值定义为0-男,1-女;但是
在输入过程中有时可能会误录为3或其他非0、1数值,此时可以设定2、3、4
为缺失值,如果在数据输入时出现2、3、4系统将按照缺失值处理,该单元格
为一个空格。
Rangeplusoneoptionaldiscretemiss:定义某一个范围,同时还有一个不在此范围
的单一数值作为缺失值(区间);例如人群身高调查,正确的数值介于(0,),
,high中可以任意填一个十分大的数值如1000。
以上定义常常可以与frequencies命令结合使用。
Columns:显示时的变量值宽度;显示宽度不影响机内计算,只影响显示。
Align:对齐方式;可选择左/中/右对齐。
Measure:意义如前所述;该项设置在绘制交互作用统计图时十分有用。通常,即使是分类变量与等
级变量,输入时仍然将变量当作数值录入,并在values中说明,使得这些变量参与统计分
析。
3、数据的录入:单击DataView选项卡,将鼠标移到单元格上,单击该单元格就可以输入数据。要
注意数据编排的顺序:
:.
变量编排方向






在SPSS中变量以及数据编排的顺序是有一定规律的:变量总是在最上方,从左到右编排;而数据
总是在所对应的变量下方,自上而下编排;这一特点与Excel不同,在Excel中变量所对应的数值既
可以横排,也可以纵排。
另外,要注意变量值的格式(Type),一旦在variableview中定义完毕,就要按照要求输入,否则
系统会将其作为缺失值处理。
*请将课本P8-9,。
*请将课本P13****题1、2的数据输入SPSS中
4、查看变量信息与文件信息:
变量值输入之后可以用Utilities菜单中的Variable命令,或单击工具栏中的“”图标,即可打
开变量信息对话框。对话框显示的是光标所在位置变量值对应的变量信息。
该对话框中的第一行是变量名(name),其后有“<”号,表示该变量是字符串变量(string);变量
标签栏(label)没有信息;第三行是变量格式(type),A表示字符串型,8表示长度;往下是缺失值:.
定义(missingvalues),none表示没有规定缺失值;接着是测量方式(measurement),表示为分类变
量(nominal),所以该变量所对应的变量值11、12、15没有大小之别,仅仅起区分作用。
如果数据库中有很多变量,如果要一一点击查看比较麻烦,可以通过查看文件信息,显示该数据
库中所有变量的信息。具体操作方法为:Utilities—FileInfo,我们将在结果输出窗口(SPSSViewer)
看到该数据库变量信息。
二、数据文件的编辑整理
1、数据文件的编辑与管理——File菜单
新建
打开
打开数据库
从文本文档读取
保存
另存为
显示数据文件信息
建立数据缓冲区
打印
打印预览
切换服务器
停止运算
最近使用过的数据
最近使用过的文件
退出
New:在新建下有5个命令,分别是新建数据(data)、新建语法输入(syntax)、新建输出窗口(output)、
新建草稿输出(draftoutput)和新建脚本(script)。事实上,当进入SPSS后系统就已经生成
了一个空数据文件;对于SPSS旧版本的用户,也可通过syntax对话框建立新数据。:.
Open:打开选项下同样也有5个命令,基本与新建相同。,否则系
统提示出错;打开后Excel文件中的所有数据都会忠实再现,默认type为numeric,measure
为scale;,可通过定义type为string,以及复制粘贴的方法
再现。请注意excel文件的变量以及数据编排方式,否则在读取数据后还要作进一步转换。在
工具栏中有其快捷按钮“”。
OpenDatabase:即所谓的ODBC接口(OpenDatabaseCapture);该接口为微软所建立,被大多数
的数据库(如MSAccess)软件和办公软件(如MSOffice)所支持,通过它应用程序可以直
接访问以结构化查询语言(SQL)作为数据访问标准的数据库系统。
ReadTextData:实际上该功能可以用Open命令完成。
则,否则在读取数据后还要作进一步转换。
Save:请及时保存文件;save命令将保存文件中的所有内容;有时在我们处理数据的过程中系统会生
成一些临时的变量,如果不想将它们也一起保存,可以采用saveas命令,选择想保留的变量
名称另存为其他文件。在工具栏中有其快捷按钮“”。:.
DisplayDataInfo:会在SPSSViewer中输出数据文件的信息以及数据文件中所包含的变量的信息。
CacheData:如果系统从远程SQL数据库中调用数据将会很费时间,使用该命令会将数据全部读入
暂存盘,建立数据缓冲区,大大加快运行速度;如果处理本机的数据,该命令的提速效果不
明显。
Print/PrintPreview:可以修改打印机设置,并在打印前预览打印效果。在工具栏中有其快捷按钮
“”。
SwitchServer:该命令主要用于使用SPSS服务器(SPSSServer)客户端的计算机。
StopProcessor:强制停止SPSS运行。
RecentUsedData/Files:用于快速打开最近使用的数据或文件。
Exit:退出程序,请及时保存输入数据。
2、数据文件的编辑与管理——Edit菜单
撤销操作
恢复所撤销动作
剪切
复制
粘贴
粘贴变量
清除
寻找
系统参数设置
该菜单下的命令与Word或Excel中的功能基本一致;需要解释的主要是pastevariables与find。
PasteVariables:。通常
的做法是选择该变量的变量值,复制粘贴到新的数据文件中,但是这样作仅仅拷贝了变量值,
而对于该变量的其他信息,例如type、label、values等信息仍然需要重新定义;使用pastevariables
命令则可拷贝该变量的变量设置信息。注意该命令须在variableview中使用。:.
Find:查找制定变量中的制定数据;
age变量为50的个体。首先打开该文件,在dataview中单击age变量所在列的任一单元格,
点击find或直接从工具栏中点击,在弹出的对话框中键入50,点击OK即可。
3、数据文件的编辑与管理——Data菜单
定义变量属性
拷贝数据属性
生成时间系列周期
插入变量
插入观察单位
转到观察单位
排序
行列转置
改变排列格式
合并(变量或观察单位)
分类汇总
正交设计
拆分文件
选择特定观察单位
加权
DefineVariableProperties:该命令所提供的功能主要是针对nominal和ordinal类型的变量,可以在
该命令的对话框中完成variableview中一些主要设置,例如type、label、value、missing、
measure的设置;它的最大好处在于可以快速定义这些属性(比如通过复制另外一个类似变量
的属性),以及给出一个类似频数分布表的直观视图。
CopyDataProperties:该命令与edit菜单下的pastevariable相似,同时definevariableproperties
也可以提供类似功能——将源变量的数据属性复制至目标变量。与前面不同的是在该命令下,
源变量与目标变量可以不同在同一数据中。
DefineDates:自动生成时间变量,主要应用于时间序列模型。
InsetVariable:有时在编辑好的数据中要添加新变量,通过该命令可以在选择的位置前插入一个新变
量,而后通过上面的所介绍的命令例如definevariableproperties、CopyDataProperties,设
置其具体属性。在工具栏中有相同功能的快捷按钮“”。
InsetCase:添加新观察单位,可以在当前行(case)前插入新case,在工具栏中有相同功能的快捷按
钮“”。
GotoCase:到达指定记录号的观察单位(case),该命令在观察单位极多时非常有用。在工具栏中有
相同功能的快捷按钮“”。
SortCase:可以将某个变量的变量值从大到小或从小到大排列;便于输入结束后进行查找,纠错。:.
Transpose:通过该命令可以将原先的case转变为一个variable,而variable则转变为case。该命令
在读取一些以标准格式记录的数据时十分有用,尤其是这些数据的case很多时。例如我们读
,该文件中的记录不是很规范,经过转置后可以纠正。
系统在执行该命令过程中生成一个临时变量case_lbl,在后续的保存过程中可通过saveas将其
除去。
Restructure:许多时候按照“标准格式”输入的数据不一定可以立即满足我们的分析要求。例如,在
重复测量模型中,我们需要将同一个体多次的测量值并排在同一行上才可以分析,但是原始
数据并非如此,。
这是原始格式
这是理想的格式
:.
运行该命令,系统将弹出以下向导
选项一:将选择的变量转变为观察单位(将横行数据转换为纵列)。
选项二:将选择的观察单位转变为变量(将纵列数据转换为横行)。
选项三:调用transpose命令。
在本例中,我们相将一列scores变为一行scores,所以选择选项二;按“下一步”
IdentifierVariable:ID变量,即如何确定每个case。
IndexVariable:索引变量,即如何确定因素或水平。
本例中每个subject就代表一个case,所以将subject选入IdentifierVariable;因素有一个,
但是有4个水平(重复了4次),所以将trail选入IndexVariable;直接点击“完成”。
MergeFiles:用于合并数据,包括了两个过程,纵向合并(addcases),横向合并(addvariables)。
AddCases:从外部的数据文件中增加记录(case)到当前数据文件中,当前的文件中变量
的个数不改变,但是观察单位数增多。例如研究者研究某人群的血磷值的分布
情况,先期观察了10例;而后又观察了15例;两次观察的变量都是血磷值,:.
变量没有改变,为了分析方便考虑将两次的结果合并,称为纵向合并。
对话框左侧代表的是当前与外部数据文件中不匹配的变量名称,“*”号表示为
当前数据文件中的变量,“+”号则表示外部文件数据集中的变量;右侧的对话
框中表示已经匹配的变量名称。有两种方法可以addcases。一种是重命名匹配
法(rename-pair),另外则是强行匹配法(选择两个匹配变量-pair)。
AddVariables:从外部文件添加变量(variable)到当前文件中;例如,某研究者观察某人
群的血磷值,而后又观察了相同人群的年龄、性别,为了分析需要将两次结果
合并,称为横向合并;合并前后相比,观测对象没有改变,但是观察的变量增
多了。横向合并对两个数据的要求比较高,系统默认是按照相同的记录号进行
合并,或者使用一个关键变量(keyvariables)进行匹配合并。如果两个数据文
件的记录数(cases)不一样多,则会丢失部分记录,甚至合并失败。
现有两个文件,损伤1与损伤2。损伤1中包含了1-90号病例(其中有缺号)
的性别、年龄、血小板值;损伤2则包含了11-100号病例的收缩压、舒张压、
脑损伤情况。
Newworkingdatafile框中显示了新数据集中将出现的所有变量,“*”号表示为
当前数据文件中的变量,“+”号则表示另外数据集中的变量;excludedvariable
表示不会出现在新数据中的变量,由于来自于外部文件的“id号”变量与当前:.
文件中的变量重名,所以被系统自动排除。如果按照系统默认,两份数据的记
录并不相同,合并后会出错。因此选择matchcasesonkeyvariableinsortedfiles,
有三种情况:bothfilesprovidecases(两个文件提供的所有记录)、externalfiles
iskeyedtable(以当前的文件为主,合并后的文件中只存在当前的cases)、
workingdatafilesiskeyedtable(以外部的文件为主,合并后的文件中只存在外
部的cases)。很显然后两种做法信息将有损失,所以选择第一种;而后将“id
号”选入keyvariable中,按OK后系统弹出以下对话框:
(如果关键变量没有按照升序排列,合并将失败)
所以切记:在将两份数据横向合并之前必须将它们各自按照匹配变量的升序进行
排列,使用之前的sortcases命令。由于两份数据均已经排要求排列过,所以直
接点击“确定”即可。合并后的数据中将即有当前数据的cases又有外部数据的
cases。
Aggregate:所谓的分类汇总就是按照一定的分组依据将观测对象分组,并对每组的对象分别进行统
计描述。其功能与之后介绍的统计描述有些重复(不如专用描述命令功能强大),但是该命
令的执行结果(即分类汇总的结果)既可以作为新文件保存,也可以用它替换当前数据。
例如将血磷值按照不同的分组分类汇总;breakvariable即为分组变量,在这里是“组别”,
aggregatevariable为要描述的变量,这里为“血磷值”;将组别与血磷值分别选入对应位置
后即可定义汇总函数(function)以及汇总后新产生的变量的名称与标签(name&label)。
系统默认将产生一个汇总数据文件;当然也可以选择将当前文件替换(replaceworkingdata
file)。
SplitFile:拆分文件;该命令虽然也将原数据按照一定要求分组,但是命令本身不再有统计描述功能,:.
仅具有aggregate命令中的分类功能,通常与统计描述的命令一起结合使用。
一旦使用该功能,DataEditor下方的状态栏将会显示;如果将来进一步的统计
分析不需要对原文件拆分(后续的统计分析命令大多都有分组因素,通常不需要将cases拆
分),请将拆分数据还原。
OrthogonalDesign:正交表设计;该命令提供了设计(Generate)与生成(Display)正交表的功能。
但是该命令所生成的正交表与理论课教材中的表格不同,表现在其表头中不出现误差列,请
注意。其具体操作见方差分析。
SelectCases:很多时候我们不需要分析所有数据,而是按照某种要求分析其中的一部分(比如对于食
管癌病例,研究者仅仅想研究原发病例,对于其他部位转移来的病例不想研究),可以采用
该命令。,产于美国的汽车的输出功率。
选择ifconditionissatisfied,弹出如下对话框::.
该对话框左侧为待选变量,右侧上部为表达式显示区,下部的窗口内有待选众多函数
(Functions)。将origin变量选入右上框中,键入“=1”(在variableview中,产于美国的
汽车,变量值对应的value为1),点击continue,可以看到:
在该对话框的下部,Unselectedcasesare,系统默认为filtered,被过滤的cases仍然存在于
原数据文件中;如果要将这些被过滤的数据删除,则选deleted(建议少用)。被过滤掉的数
据,其记录号上将被加上斜杠以示区别,同时系统将自动产生一个名为filter_$的指示变量,
被过滤掉的数据为0,反之为1:
WeightCases:在SPSS系统中,通常每一行就是一个Case,但是这一规定有时将会使输入数据十分
繁琐;现某研究者要研究两种药物的疗效是否有别,分别观察了A药100例(30例无效,
70例有效),B药100例(21例无效,79例有效);按照默认要求数据文件中必须至少设定
两个变量,分别是:药物(1=A,2=B)以及治疗效果(0=无效,1=有效),每行代表一
个case,在输入数据时要输200行!如果直接使用有效或无效的频数将大大减少输入工作量。
因此遇到上述情况时,通常增加一个变量:频数——直接将30、70、21、79输入工作区中,
但必须为系统指定分析时调用该列频数,这就是weightcases过程。具体使用将在卡方检验
中详述。:.
4、数据文件的编辑与管理——Transform菜单
通过计算生成新变量
设定伪随机函数的种子
计数并生成新计数变量
重新编码(覆盖原变量或生成新变量
等级化连续型数值变量
排序并生成新变量
自动排序
自动生成时间序列变量
填充时序变量中的缺失值
完成尚未结束的转换命令
Transform菜单主要集中了一些对变量进行转换的过程,例如对原始数据进行函数运算、重新编
码、排秩次等。它们在统计分析的预处理中起着非常重要的作用。在这些命令中最重要的是compute
命令,其他transform菜单下的命令可以看成是对compute命令在某些方面的强化。
Compute:该命令是transform菜单中最经常使用的命令,用于给新变量赋值。
TargetVariable对话框为新变量的变量名称,变量名的定义法则与前述name的设定一样;
下方可以定义该变量的type与label:
:.
在targetvariable下方的对话框中是存在于当前文件中的所有变量,点击其中的任意一个,
其右边的按钮将显示为可用,可以将该变量选入右上方的NumericExpression对话
框中。NumericExpression用于对新变量赋值,我们既可以直接输用键盘输入,或者使用
左下方系统提供的软键盘,也可以从右下方的function中选择合适的函数。如果并非所有
数据都要参与计算新变量,则可以调用IF选项,该选项的功能与Data—Selectcases相似:
软键盘区的一些运算符号:
:表示≠
:系统的逻辑运算符号,从左到右分别为“and”、“or”、“not”。
:表示底数的乘方,例如8的2/3次方可以输为8**[2/3],系统显示为4。
Function中函数的设定(一些常用的函数):
对数转换:LG10(num)、LN(num)—抗体滴度、病原体含量、变异系数等正态性转换
倒数转换:直接用1/变量值—波动很大的数据正态性转换
平方根转换:SQRT(num)—满足泊松分布的数据或轻度偏态数据正态性转换
角度转换:平方根反正弦ARSIN(num)与SQRT(num)联用—率或百分比的正态性转换
已知统计量求曲线下面积(CumulativeDistributionFunctions):
(quant,n,prob)—二项分布
(quant,df)—卡方分布
(quant,df1,df2)—F分布
(quant,mean,stddev)—正态分布
(quant,mean)—泊松分布
(quant,df)—Student’st分布:.
CDFNORM(z)—标准正态分布
(注意以上函数所示曲线下面积表示左侧面积)
*某研究者随机抽样调查160名正常人,测得其脉搏均数为67次/分,;请问
其中脉搏超过70次/分的人约有多少?(假设脉搏满足正态分布)
*已知某地人群的脉搏均数为67次/分,;某研究者随机抽样调查160名正常
人,请问抽到脉搏均数超过70次/分的样本可能性有多大?(假设脉搏满足正态分布)
*根据以往经验,一般的胃溃疡患者有20%发生胃出血;现某医院观测65岁以上胃溃疡病人304
例,有80例发生胃出血,问老年患者是否较容易发生胃出血?
*为了研究两种新药物疗效,研究者用一种常用药物作为对照,每组观察10例患者,各组均数与
标准差如下:甲药均数为22,标准差为7;乙药均数为16,标准差为7;对照药物均数为13,
标准差为8;问是否可以认为三种药物的疗效不全相同?
*卫生标准规定儿童化妆品含菌量不得超过500个/ml,现检查此种化妆品1ml,测得细菌数目为
502个,问此种化妆品是否合格?
已知曲线下面积求统计量(