文档介绍:▲数据类型
a. 横截面数据集(cross-sectional data set):即给定时点对个人、家庭、企业、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别)
名词术语
1、数据集:数据的集合,由样本(行)和变量(列)组成
(time series data set):是由一个或几个变量在不同时间的观测值所构成的。
(pooled cross section data set):有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同。
(panel data set):由横截面数据集中每个样本的一个时间序列组成。(定点长期调查)
其他专门数据类型:
1、离散数据(discrete data):通常在考察个人、家庭或企业的决策行为时,通过问卷调查获得,由此发展出“离散选择模型”
2、持续数据(survival data):用于考察变量从开始到结束或调查终止前所经过的时间长度,如失业持续时间、罢工持续时间、甚至怀孕间隔
3、cohort(一代人) data -- 为持续收集特定社会群体在一段时间内的变化的数据。如:调查七十年代出生的样本在10年间的汽车持有率数据或就业率数据等。
▲SAS工作空间
n程序窗口(PROGRAM EDITOR)
n运行记录窗口(LOG)
n输出窗口(OUTPUT)
▲SAS程序第一例
nSAS/
n注:以后程序文件省略后缀,直接简记为文件名称,如此例简记为HelloWorld,需要说明文件类型时才标明后缀。
▲SAS程序的书写格式
n1、SAS程序由语句组成,语句用分号结束。
n2、SAS语句可以从某一行的任意位置开始;
n3、几个SAS语句可以写在同一行上,但每句要使用分号
n4、一个语句也可以写成几行,只要语句中的单词不被断开就可以。在一个语句中各个单词之间至少要有一个空格。
n5、SAS程序中一般不区分大小写(字符串中要区分大小写)
n6、用/*注释的内容*/ 来对程序进行注释
▲SAS程序的结构
nSAS数据集
样本(观测、记录)、变量(字段、域)、表(数据集)、数据库
n许多SAS语句都是以关键词开始并用它识别语句的类型(如data、input、proc)
n绝大部分的SAS语句都可分为两步:DATA步和PROC步
▲SAS的变量及格式
变量属性(名称、类型、长度、输入格式、输出格式、标签)
类型:数字型、字符串型
输入格式:数据被SAS读取的格式
输出格式:数据呈现给人们的格式
▲SAS程序第二例
nSAS/
data oranges;
input variety $ flavor texture looks;
total=flavor+texture+looks;
label total="总数";
cards;
navel 9 8 6
temple 7 7 7
valencia 8 9 9
mandarin 5 7 8
;
proc sort data=oranges;
by descending total;
run;
proc print data=oranges;
var _numeric_;
/* var _character_;*/
title '对ORANGES数据集的品尝结果';
run;
输入数据-形成数据集-排序-打印显示
▲SAS文件及命名
n1、SAS数据集文件(后缀为sas7bdat)
n2、SAS程序文件(后缀为sas)
n3、SAS日志文件(后缀为log)
n4、SAS输出文件(后缀为list)
n临时数据集和永久数据集
SAS文件的2级命名方式:
work目录和其他目录
使用Libname语句创建永久数据集,
libname 自建目录名‘目录地址’;
libname例
libname zhao 'd:\sas';
data ;
input a ;
cards;
1
;
run;
▲
建立SAS数据集的5种方法
。Orange例
2、data步利用set 语句建立。Set例
data abc;
set ;
run;
proc print;
run;
3、从外部调入。Infile例
data abcd;
infile 'D:\SAS\data\';
input a b c;
run;
proc print;
run