1 / 4
文档名称:

基于R语言的数据分析方法(共4页).docx

格式:docx   大小:65KB   页数:4页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于R语言的数据分析方法(共4页).docx

上传人:mkjafow 2022/4/3 文件大小:65 KB

下载得到文件列表

基于R语言的数据分析方法(共4页).docx

文档介绍

文档介绍:精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
基于R语言的描述性统计分析方法
对于数据差(记为),定义为
分布形状的度量
(1)偏度系数
样本的偏度系数(记为)的计算公式为
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业

其中为标准差,为样本的3阶中心距,即。
偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
(2)峰度系数
样本的峰度系数(记为),计算公式为

其中为标准差,为样本的3阶中心距,即。
当数据的总体分布为正态分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。
代码实现
下面编写一个描述性统计的函数,,以方便计算样本的各种描述性统计量。
主函数:
data_outline <- function(x){
n <- length(x)
m <- mean(x)
v <- var(x) #方差
s <- sd(x) #标准差
me <- median(x) #中位数
dataquan <- quantile(x,probs = seq(0, 1, ), = FALSE) #seq用于确定是分位数的概率
cv <- 100*s/m #变异系数
css <- sum((x-m)^2) #样本校正平方和
uss <- sum(x^2) #样本未校正平方和
R <- max(x)-min(x) #样本极差
R1 <- quantile(x,3/4)-quantile(x,1/4) #四分位差
sm <- s/sqrt(n) #标准极差
g1 <- n/((n-1)*(n-2))*sum((x-m)^3)/s^3 #偏度系数
#峰度系数
g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4- (3*(n-1)^2)/((n-2)*(n-3)))
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专