文档介绍：*第二节R与数据描述性分析描述统计分析推断统计分析绘制统计图型编制统计表格计算描述统计量参数估计假设检验数据建模数据挖掘…数据的统计分析*(x)返回向量x中最大元min(x)(x)(x)返回x最小元的下标mean(x)计算样本x的均值median(x)计算样本x的中位数var(x)计算样本x的方差sd(x)计算样本x的标准差fiveenum(x)计算样本x的五数概括quantile(x,pro=c())计算样本x的常用分位数(默认五数概括)summary(x)计算样本x的(五数概括+均值)*sum(x)(cumsum(x))给出样本x的总和(积累和)mad(x)(abs(x-median(x)))range(x)返回向量c(min(x),max(x))或(min(x)-max(x))IQR(x)计算样本x的四分位数极差sort(x)sort(x)按升序排序,选项decreasing=TRUE表降序skewness(x)样本的偏度系数(需加载fBasics程序包)kurtosis(x)样本的峰度系数(需加载fBasics程序包)basicStats(x)fBasics包中的命令,(x)Pastecs包中命令,(x)psych包,Hmise包中命令,计算常用的统计特征量var(x,y),cov(x,y)计算样本x,y的协方差或协方差矩阵cor(x,y)计算样本x,y的相关系数col(row)means(x)矩阵x行(列)均值scale(x,center=T)对矩阵或数据框x中心化,(,+scale=T)标准化aggregate(x,by,fun)对数据框x的指定分组变量按指定函数统计分析apply(s,t,lpply)对矩阵(列表或向量、因子)指定分组变量使用函数**(位置)数据差异(分散程度)分布形状(偏态和峰态)*(一)水平的度量(数据的“位置”)()()me50%50%排序后处于中间位置上的值。不受极端值影响*其中x(i)是第i个顺序统计量的样本值,按升序排列为:x(1)≤x(2)≤…≤x(n)在R中,sore()给出样本的次序统计量的观察值。sore(x):数据按升序排列,decreasing=TRUE为降序。sore(x,na):有缺失值的数据,不处理缺失数据。sore(x,=T):排序保留缺失数据,排在最后。sore(x,=F):排序保留缺失数据,排在最前。与sore(x)相关的函数:order()给出排序后的下标。rank()给出样本的秩统计量。*(1);z=sample(1:100,9);z#设置种子,在1~100中任取9个数,比较与sample(1:100,9,rep=T)(1)的不同,[1]273757892086976258sort(z)[1]202737575862868997sort(z,decreasing=TRUE)[1]978986625857372720order(z)[1]512398647z[order(z)][1]273757892086976258which(z==max(z))#给出最大值下标,[1]7which(z==median(z))#给出中位数下标[1](排序,次序统计量的样本值,最大值、中位数下标)*(mode):一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数momo在R中,样本x的众数如下计算:which(table(x)==max(table(x)))<-c(2,2,4,4,4,6,6,6,8)table(x)#x的频数表max(table(x))#众数出现的次数which(table(x)==max(table(x)))#众数在table(x)第几个:4,6.*左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值众数、中位数和平均数的关系均值是观测值的重心:对称分布或接近对称分布时代表性较好中位数是观测值的中心:数据分布偏斜程度较大时代表性接好众数是观测值的重点:偏斜程度较大且有明显峰值时代表性较好