文档介绍:第二章统计数据的搜集
PowerPoint
统计学
第二章统计数据的搜集
第一节数据的计量与类型
第二节统计数据的来源
第三节调查方案设计
第四节统计数据的质量
开篇案例:中国互联网络发展状况统计调查方案
一、调查背景及目的
为了更好地了解、利用互联网络,掌握我国互联网络上网计算机数、用户人数、用户分布、信息流量分布、域名注册等方面情况的统计信息,NIC)每半年实施一次中国互联网络发展状况统计调查。该调查采用计算机网上自动搜寻、网上联机调查和网下抽样调查等方法进行。
开篇案例:中国互联网络发展状况统计调查方案
二、网下抽样调查方案
侧重于了解中国网民数量与结构特征、上网条件、网民行为与观念和非网民状况。
(一)调查总体    本调查的目标总体有两个,一是全国有住宅电话的6岁以上的人群(总体A),拟采用电话调查的方式,样本对各省和全国有代表性;另一个总体是全国所有高等院校中的住校学生(总体B),拟采用面访的方式进行调查。由于时间和费用方面的限制,样本只对全国和按有关指标所分的各层有代表性。在对全国结果进行推断时,将两个子样本的统计量应用加权公式进行汇总。
开篇案例:中国互联网络发展状况统计调查方案
(二)总体A抽样方案的设计原则
    本抽样设计主要按照科学性和可操作性相结合的原则来考虑,因此我们对目标总体按省进行分层。
1、抽样指标的确定:
从全国的情况来看,各省的城市住宅电话与乡村住宅电话的比例差异很大,由于城市与农村家庭的平均人口数差异很大,所以在确定各省样本量以及用各省数据推断全国时,我们考虑的指标是"拥有住宅电话的人数(或称住宅电话覆盖的人数)";我们拟采用该地区的"住宅电话数目"作为抽样指标。为了得到地区"住宅电话数目"的近似估计,拟借助省一级的"住宅电话数目"与有关的经济、人口指标建立的回归预测模型,再利用地区一级的有关经济、人口指标的值来计算。
开篇案例:中国互联网络发展状况统计调查方案
2、样本量:
    为了保证目标比例估计值的精度,在95%的置信度下,每省的样本量为2020时,%。
3、省内各地区的抽样方法:
    采用PPS抽样方法。    第一步:用PPS法每省抽取5个地区(此处的地区包括地级市和地区行署,每个地区下都包含城镇和乡村,为不引起歧义,以下简称为地区), 在地区少于五个的省中,各省的样本量在各地区中的分配与各地区的估计住宅电话成比例。
开篇案例:中国互联网络发展状况统计调查方案
抽取地区的方法:在各省中抽取地区,根据所确定的入样指标"住宅电话的数目",按照PPS抽样法,使每个地区被抽中的概率,等于该地区"住宅电话的数目"与该省"住宅电话的数目"之比。利用EXCEL软件产生0-1之间的均匀分布的随机数,根据随机数落在各地区对应累计百分比的范围,抽取5个地区。如果一个地区被抽到两次以上,则该地区样本量相应加倍。例如:某地区被抽中一次,样本量为404个,如果该地区被抽中两次,则样本量为808个。
开篇案例:中国互联网络发展状况统计调查方案
第二步:获得抽中地区的所有电话局号,根据该地区的局号数和样本数确定平均每个局号下需抽取的电话号码数。电话号码中除局号外的后四位或后三位数字,由随机产生。
第三步:确定抽取调查对象,在电话拨通后,符合条件的网民即为调查对象。
4、全国加权方法:    对全国的推断采用对各省的调查结果进行事后加权处理的方法。
开篇案例:中国互联网络发展状况统计调查方案
(二)网上调查
网上调查重在了解网民对互联网评价及典型互联网应用的使用情况。
CNNIC在2007年6月8日~6月30日进行了网上调查,NIC的网站上,同时在中央媒体网站、全国较大ICP/ISP网站与各省的信息港上设置问卷链接,由网民主动参与填写问卷的方式来获取信息。回收问卷后,通过技术手段进行答卷有效性检验,筛除无效答卷。网上问卷调查得到各大网站的大力支持和广大网民的热情参与。本次网上调查共收到调查问卷32,161份,经过有效性检查处理得到有效答卷21,714份。
开篇案例:中国互联网络发展状况统计调查方案
(三)网上自动搜索与统计数据上报
网上自动搜索主要是对域名、网站及其地域分布等指标进行技术统计;而统计上报数据主要包括IP地址数、网络国际出口带宽数等内容。