1 / 59
文档名称:

数据统计学处理方法与选择讲课文档.ppt

格式:ppt   大小:10,240KB   页数:59页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据统计学处理方法与选择讲课文档.ppt

上传人:海洋里徜徉知识 2025/4/20 文件大小:10 MB

下载得到文件列表

数据统计学处理方法与选择讲课文档.ppt

相关文档

文档介绍

文档介绍:该【数据统计学处理方法与选择讲课文档 】是由【海洋里徜徉知识】上传分享,文档一共【59】页,该文档可以免费在线阅读,需要了解更多关于【数据统计学处理方法与选择讲课文档 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据统计学处理方法与选择
第一页,共59页。
第一部分 数据输入与整理
第二页,共59页。
一、原始数据的录入
1、原始数据的记录形式
医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。每一行称为一个记录(record),或一个观察单位(case);每一列称为一个变量Variable),用以表示变量、项目或观察指标等。
肾衰病人预后分析临床资料
病人编号
病案号
性别
年龄
生理评分
肾毒 性
黄疸
昏迷
肌酐
胆固 醇
肾功能 预后
1
004757

26
14



520

治愈
2
007950

31
13



523

治愈
3
011093

55
17



209

治愈
4
017555

25
9



1033

未愈
.
.
.
.
.
.
.
.
.
.
.
274
279183

78
15



331

未愈
第三页,共59页。
2、原始数据的录入
在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数据文件等。目前,上述文件类型绝大多数都可以相互转换。 录人数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。便于核查是指一定要设有标识变量,以方便数据核查。便于转换是指录入数据时要考虑不同软件对字节和字符的要求,便于分析是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面 。
第四页,共59页。
第五页,共59页。
二、输入数据的质量控制
1、数据核查
数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大值与最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误;第二步将原始数据与输入数据进行核对,更正错误。
在一些大型数据的录入过程中,为保证数据的质量,往往采用对同一资料进行双人重复录入的方法,然后应用程序对两个数据库进行比对,如有录入结果不符,则进行核查,找出其错误所在。
第六页,共59页。
二、输入数据的质量控制
2、缺失值的处理
在资料收集过程中,特别是大型数据的收集,不可避免的会有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通常认为,缺失值应控制在数据记录总量的10%以内。在计算机的数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用来表示“无”,即该事件未发生,具有确切的含义,表明该数据已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,以免混淆。在一般的数据库软件中,缺失值通常都用“.”表示。
第七页,共59页。
二、输入数据的质量控制
2、缺失值的处理
在资料分析中,如一例记录的某个变量有缺失值,统计分析软件都会自动把该例作删除处理。因此,当资料可避免地产生了缺失值,而该例记录由于其他的变量仍有统计分析的价值,或者当删除该例记录后样本例数太少,不能保证数据分析结果的可靠性时,则可用一些统计学方法对缺失值进行填补。对缺失值进行估计填补具体方法,可参阅有关文献。
第八页,共59页。
二、输入数据的质量控制
3、离群数据的处理
当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。判断离群数据的方法可通过观察数据的频数表或直方图进行初步判断;统计软件一般都有判断离群数据的方法,例如,SPSS软件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距),观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。
第九页,共59页。
第十页,共59页。