文档介绍：精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
基于R语言的描述性统计分析方法
对于数据差（记为），定义为
分布形状的度量
（1）偏度系数
样本的偏度系数（记为）的计算公式为
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
，
其中为标准差，为样本的3阶中心距，即。
偏度系数是刻画数据的对称性指标，关于均值对称的数据其偏度系数为0，右侧更分散的数据偏度系数为正，左侧更分散的数据偏度系数为负。
（2）峰度系数
样本的峰度系数（记为），计算公式为
，
其中为标准差，为样本的3阶中心距，即。
当数据的总体分布为正态分布时，峰度系数近似为0,；当分布为正态分布的尾部更分散时，峰度系数为正；否则为负。当峰度系数为正时，两侧极端数据较多，当峰度系数为负时，两侧极端数据较少。
代码实现
下面编写一个描述性统计的函数，，以方便计算样本的各种描述性统计量。
主函数：
data_outline <- function(x){
n <- length(x)
m <- mean(x)
v <- var(x) #方差
s <- sd(x) #标准差
me <- median(x) #中位数
dataquan <- quantile(x,probs = seq(0, 1, ), = FALSE) #seq用于确定是分位数的概率
cv <- 100*s/m #变异系数
css <- sum((x-m)^2) #样本校正平方和
uss <- sum(x^2) #样本未校正平方和
R <- max(x)-min(x) #样本极差
R1 <- quantile(x,3/4)-quantile(x,1/4) #四分位差
sm <- s/sqrt(n) #标准极差
g1 <- n/((n-1)*(n-2))*sum((x-m)^3)/s^3 #偏度系数
#峰度系数
g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4- (3*(n-1)^2)/((n-2)*(n-3)))
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专