文档介绍:.
第一章导论
1. 比较描述统计和推斷统计:
数据分析是通过统计方法研究数据•其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证硏究中最常用 的方法,也是统计分析程度小,表示 总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值 相等,则标志变动度为零,
(C )抽样方法的选择。重复抽精口非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复 抽样的抽样误差小
(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织 所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式 的比较标准。
(2 )非抽样误差:主要包括:、无回答误差、调查员误差;是调查过程中宙 于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差主要有:调查方案中有关的规定或 解釋不明确导致的填报错误、;被调查者所造成的误差主要有:因人为因素干扰 形成的有蕙虚报或瞒报调查数据。非抽样误差理论上是可以消除的。
三、简单随机抽样:
(1)概念:从总体/V个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;
(2 )特点:1简单、直观,在抽样框完整时,可直接从中抽取样本
b、用样本统计量对目标量进行估计比较方便
(3 )鞭性
当/V很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助信息以提高估计的效率
第三章数据的整理与展示
1. 数据排序的目的:
(1 )数据排序是按一定II页厚将融排列,以发现一些明显的特征或趋势■找到解决问题的线索
(2 )排还有助于对换检查纠错■以及为更新归类或分组等提供方便。
(3 )在某些场合,排本身就是分析的目的之一。
2. 数据分组:
是根据统计硏究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。 数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和 组距分组两种,,在连续变量或变量 值较多情况下,通常采用组距分组。
3. 组距分组的步骤和原则:
⑴步骤:
a、 确定纟购:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按
Sturges提出的经验公式来确定组数K K = 1 + 削
Ig⑵
b、 确走组距:组距(Class Width)是f 组的上限与下限之差,可根据全部数据的最大值和最小 值及所分的酗来确定,即
组距二(最大值•最小值)+组数
C、统计出各组的频数并整理成频数分布表
(2 )原则:
采用组距分组时,需遵循"不重不漏"的原则,“不重"是指一项数据只能分在其中的某一组. 不能在其他组中重复出现;”不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中 的某一组,不能遗漏。为解决不重的问题,统计分组时习惯上规定"上组限不在内",即当相邻两组的 上下限重畚时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。当然,对于离散变量, 我们可以采用相邻两组组限间断的办法解决”不重”的问题。也可以对f组的上限值采用小数点的形 式,小数点的位数根据所要求的精度具体确定。缺点:组距分组掩盖了各组内的数据分布状况 四、直方图和条形图的区别:
首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用 面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与 竟度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续菇洌,而条形图则是分开排列。
最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据 五、绘制线图应注意的问题:
)时间一般绘在横轴,观测数据绘在纵轴 )图形的长竟比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是10:7.
(3
折断的符号将纵轴折断
)一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间距过大,可以采取 六、设计统计表注意的问题:
首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理。
其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表 的内容。
再次,表中的上下两条线一般用粗线,中间的其雌用细线,表的左右两边不封口 ,列标题之间可 以用竖线分开,而行标题之间通常不必用横线隔开。
最后,在使用统计