1 / 51
文档名称:

数据处理与分析.ppt

格式:ppt   大小:603KB   页数:51页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据处理与分析.ppt

上传人:卓小妹 2022/7/22 文件大小:603 KB

下载得到文件列表

数据处理与分析.ppt

文档介绍

文档介绍:关于数据处理与分析
第1页,讲稿共51张,创作于星期二

编码是给问题的每项答案赋予一个数值代码,以便于数据录入和作进一步处理的过程。
编码具体方法很多,包括:
问卷中已预先编码;
在数据收集完毕之后进行手工编码;
通能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。
除供者插补方法外,下面介绍的方法可逐项进行插补。
所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。
第17页,讲稿共51张,创作于星期二

推理插补:缺失的或不一致的数据能通过推断确定。通常,这种推理是根据问卷上其它回答项的模式来进行的。
下面简述一些常用的插补方法。对所有这些插补方法,最好是把类似的记录归为一组,就象进行无回答权数调整时一样,这些组称为插补类。
第18页,讲稿共51张,创作于星期二
均值插补
用均值插补,缺失或不一致的值可用插补类的均值来代替。对缺失数据,用均值插补相当于对同一插补类中的所有被调查者使用相同的无回答权数进行调整。
均值插补会得到较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布状态和变量之间的关系。因此,如果用常规的抽样方差公式进行计算,就会低估最终的方差。
均值插补通常在没有辅助信息可用或只有少量记录需要作插补处理时,才被采用。
第19页,讲稿共51张,创作于星期二
比(率)或回归插补
比率或回归插补是使用辅助信息及其它记录中的有效回答建立一个比率或回归模型,该模型表明了两个或多个变量之间的关系。 例如,比率插补所使用的模型为:
其中:yi是变量y的第i个单元值; xi是与变量y相关的变量x的第i个单元值; R是直线的斜率(即每变动一个单位,平均变动的数值); 是模型的随机误差项,均值为0、方差为。
第20页,讲稿共51张,创作于星期二
这时, 的插补值按如下公式计算:
式中: 是变量y第i个记录的插补值; 是插补类中记录的x值的均值; 是插补类中记录的y值的均值。
这里我们假定,拟合一个插补类中有效数据(即通过了所有的审核)的比率或回归模型,同样适用于该插补类中审核失效的数据。
第21页,讲稿共51张,创作于星期二
比率和回归估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。  
利用前期的数据进行插补,也称前向插补,是比率或回归插补的一个特例,只是直接用前期调查的数据来作为当前调查的缺失数据的插补值。
第22页,讲稿共51张,创作于星期二
热平台插补
热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。
为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插补处理的变量相关的变量,建立插补类。然后,插补类中通过所有审核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数据。
热平台插补可以用来插补定量数据,也可以用来插补定性数据,但通常只用定性变量建立插补类。
第23页,讲稿共51张,创作于星期二
样本序号 性别 年龄 婚姻状况 收入 汽车拥有 1 男 青年 未婚 70 无 2 男 中老年 已婚 100 有 3 女 青年 未婚 50 无 4 男 中老年 已婚 70 有 5 男 青年 未婚 90 有 6 女 中老年 丧偶 30 无 7 男 中老年 已婚 --- --- 8 女 青年 离异 45 有 9 男 青年 未婚 --- 无 10 女 中老年 丧偶 20 --- 11 男 青年