文档介绍:精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
基于R语言的描述性统计分析方法
对于数据差(记为),定义为
分布形状的度量
(1)偏度系数
样本的偏度系数(记为)的计算公式为
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
,
其中为标准差,为样本的3阶中心距,即。
偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
(2)峰度系数
样本的峰度系数(记为),计算公式为
,
其中为标准差,为样本的3阶中心距,即。
当数据的总体分布为正态分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。
代码实现
下面编写一个描述性统计的函数,,以方便计算样本的各种描述性统计量。
主函数:
data_outline <- function(x){
n <- length(x)
m <- mean(x)
v <- var(x) #方差
s <- sd(x) #标准差
me <- median(x) #中位数
dataquan <- quantile(x,probs = seq(0, 1, ), = FALSE) #seq用于确定是分位数的概率
cv <- 100*s/m #变异系数
css <- sum((x-m)^2) #样本校正平方和
uss <- sum(x^2) #样本未校正平方和
R <- max(x)-min(x) #样本极差
R1 <- quantile(x,3/4)-quantile(x,1/4) #四分位差
sm <- s/sqrt(n) #标准极差
g1 <- n/((n-1)*(n-2))*sum((x-m)^3)/s^3 #偏度系数
#峰度系数
g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4- (3*(n-1)^2)/((n-2)*(n-3)))
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专