文档介绍:数据分析描述性统计分析过程
几种描述性统计分析的SAS过程
和作图过程
proc means
proc univariate
proc corr
proc plot // proc gplot
proc capability
proc means(1)
Means过程的语句格式
Means过程的主要控制语句如下:
proc means 输入数据集名 <选项列表> ;
var
变量列表 ;
class 变量列表 ;
by
freq
变量列表 ;
变量 ;
weight 变量 ;
id
变量列表 ;
output <out=输出数据集名> <统计量关键字=变量名 列表> ;
run ;
proc means(2)
var语句——规定要求计算简单描述性统计量的数
值变量的次序。
by语句——按by语句定义的变量进行分组计算其相
应的简单统计量,要求输入数据集已按by变量排序。
class语句——与by语句一样,可用class变量定义
观测组,分别计算各组观测的描述统计量。输出格
式与by不同且事先不需要按class变量排序。
freq语句——指定一个数值型的freq变量,它的值
表示输入数据集中相应观测出现的频数。
weight语句——规定一个weight变量,它的值表示
相应观测的权数。
id语句——在输出数据集中增加一个或几个附加变
量,目的在于识别输出数据集里的观测。其值为生
成这个观测的输入数据集中相应观测组里id变量具
有的最大值。
n
t
cv
proc means(3)
proc means语句中可用的统计量关键字
统计量名称
含义
统计量名称 含义
未丢失的观测个数
mode
众数,出现频数最高的数
nmiss
mean
stderr
sum
std
var
uss
css
skewness
kurtosis
丢失的观测个数
算术平均
均值的标准误差
加权和
标准偏差
方差
变异系数的百分数
加权平方和
关于均值偏差的加权平方和
对称性的度量——偏度
对尾部陡平的度量——峰度
sumwgt
max
min
range
median
prt
clm
lclm
uclm
权数和
最大值
最小值
极差,max—min
中间值
总体均值等于0的t统计量
t分布的双尾p值
置信度上限和下限
置信度下限
置信度上限
proc means(4)
output语句中的选项。
<out=输出数据集名>——输出数据集
名。
统计量关键字=变量名列表——规定在
输出数据集中要包含的统计量并规定这
些统计量在新数据集中的变量名。
means过程对output语句的次数没有
限制,可以使用几个output语句来创建
内容不同的多个数据集。
N
proc means(5)
SAS程序
data examp1;
input x @@;
cards;
;
proc means data=examp1 n mean cv skewness kurtosis range median ;
var x;
run;
输出
The MEANS Procedure
Analysis Variable : x
Mean
Variation
Skewness
Kurtosis
Range
Median
50
proc univariate(1)
单变量统计分析
对一组单指标实验数据进行分析常采用两种
方法:
图示法——包括茎叶图、盒型图和正态概率
图。
描述统计量——包括矩、分位数、极端值和
頻数分布表。