文档介绍:1第二节 R与数据描述性分析描述统计分析描述统计分析推断统计分析推断统计分析?绘制统计图型?编制统计表格?计算描述统计量?参数估计?假设检验?数据建模?数据挖掘…数据的统计分析 2 用统计量描述数据 R基本统计分析函数返回 x最小元的下标 (x) 计算样本 x的五数概括 fiveenum(x) 计算样本 x的方差 var(x) 计算样本 x的标准差 sd(x) 计算样本 x的常用分位数(默认五数概括) quantile(x,pro=c() ) 计算样本 x的(五数概括+均值) summary(x) 计算样本 x的中位数 median(x) 计算样本 x的均值 mean(x) 返回 x最大元的下标 (x) 返回向量 x中最小元 min(x) 返回向量 x中最大元 max(x) 解释命令3 Pastecs 包中命令,计算多个统计量和均值置信区间 (x) fBasics 包中的命令,计算常用的统计量 basicStats( x) 对矩阵(列表或向量、因子)指定分组变量使用函数 apply(s,t,lpply ) 对矩阵或数据框 x中心化, (,+scale=T) 标准化 scale(x,center=T) 对数据框 x的指定分组变量按指定函数统计分析 aggregate(x,by,fun ) 矩阵 x行(列)均值 col(row)means(x) 样本的峰度系数(需加载 fBasics 程序包) kurtosis(x) 计算样本 x,y 的相关系数 cor(x,y) 计算样本 x,y 的协方差或协方差矩阵 var(x,y) , cov(x,y) psych 包,Hmise 包中命令,计算常用的统计特征量 (x) 样本的偏度系数(需加载 fBasics 程序包) skewness(x) sort(x) 按升序排序, 选项 decreasing=TRUE 表降序 sort(x) 计算样本 x的四分位数极差 IQR(x) 返回向量 c(min(x),max(x)) 或( min(x)-max(x )) range(x) 计算中位绝对离差 (abs(x-median(x))) mad(x) 给出样本 x的总和(积累和) sum(x)(cumsum(x)) 45 一维数据分布的特征一维数据分布的特征数据水平数据水平( (位置位置) )数据差异数据差异( (分散程度分散程度) )分布形状分布形状( (偏态和峰态偏态和峰态) ) 6 (一) 水平的度量(数据的“位置”) 1. 均值 mean() mean() 11 nii x x n ?????消除了观测值的随机波动消除了观测值的随机波动??易受极端值的影响易受极端值的影响 2. median() median() m m e e 50% 50% 50% 50% 50% (( 1)/ 2) ( / 2) ( / 2 1) ,,2 ne n n x n m x x n ????????是偶是奇??排序后处于中间位置上的值。排序后处于中间位置上的值。??不受极端值影响不受极端值影响 7 其中 x (i)是第 i个顺序统计量的样本值,按升序排列为: x (1)≤x (2)≤…≤x (n)在R中, sore() 给出样本的次序统计量的观察值。? sore(x): 数据按升序排列, decreasing=TRUE 为降序。? sore(x,na): 有缺失值的数据,不处理缺失数据。? sore(x,=T): 排序保留缺失数据,排在最后。? sore(x,=F): 排序保留缺失数据,排在最前。与 sore(x) 相关的函数: ? order() 给出排序后的下标。? rank() 给出样本的秩统计量。 8 (1);z=sample(1:100,9);z# 设置种子,在 1~100 中任取 9个数,比较与 sample(1:100,9,rep=T) 和去掉 (1) 的不同, [1] 27 37 57 89 20 86 97 62 58 sort(z ) [1] 20 27 37 57 58 62 86 89 97 sort(z , decreasing=TRUE) [1] 97 89 86 62 58 57 37 27 20 order(z ) [1] 5 1 2 3 9 8 6 4 7 z[order(z )] [1] 27 37 57 89 20 86 97 62 58 which(z ==max