1 / 47
文档名称:

R语言与数据描性分析PPT教案.pptx

格式:pptx   大小:449KB   页数:47页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R语言与数据描性分析PPT教案.pptx

上传人:wz_198613 2021/6/11 文件大小:449 KB

下载得到文件列表

R语言与数据描性分析PPT教案.pptx

相关文档

文档介绍

文档介绍:会计学
1
R语言与数据描性分析
2
用统计量描述数据
R基本统计分析函数
命令
解释
max(x)
返回向量x中最大元
min(x)
返回向量x中最小元
(x)
返回x最大元的下标
(x)
返回x最小元的下标
mean(x)
计算样本x的均值
median(x)
计算样本x的中位数
var(x)
计算样本x的方差
sd(x)
计算样本x的标准差
fiveenum(x)
计算样本x的五数概括
quantile(x,pro=c() )
计算样本x的常用分位数(默认五数概括)
summary(x)
计算样本x的(五数概括+均值)
第1页/共47页
3
sum(x)(cumsum(x))
给出样本x的总和(积累和)
mad(x)
(abs(x-median(x)))
range(x)
返回向量c(min(x),max(x))或(min(x)-max(x))
IQR(x)
计算样本x的四分位数极差
sort(x)
sort(x)按升序排序, 选项decreasing=TRUE表降序
skewness(x)
样本的偏度系数 (需加载fBasics程序包)
kurtosis(x)
样本的峰度系数 (需加载fBasics程序包)
basicStats( x)
fBasics包中的命令,计算常用的统计量
(x)
Pastecs包中命令,计算多个统计量和均值置信区间
(x)
psych包,Hmise包中命令,计算常用的统计特征量
var(x,y),cov(x,y)
计算样本x,y的协方差或协方差矩阵
cor(x,y)
计算样本x,y的相关系数
col(row)means(x)
矩阵x行(列)均值
scale(x,center=T)
对矩阵或数据框x中心化,(,+scale=T)标准化
aggregate(x,by,fun)
对数据框x的指定分组变量按指定函数统计分析
apply(s,t,lpply)
对矩阵(列表或向量、因子)指定分组变量使用函数
第2页/共47页
4
第3页/共47页
5
一维数据分布的特征
数据水平
(位置)
数据差异
(分散程度)
分布形状
(偏态和峰态)
第4页/共47页
6
(一)水平的度量(数据的“位置”)
1. 均值 mean()
消除了观测值的随机波动
易受极端值的影响
2. 中位数 median()
me
50%
50%
排序后处于中间位置上的值。
不受极端值影响
第5页/共47页
7
其中x(i)是第i个顺序统计量的样本值,按升序排列为:
x(1)≤x(2)≤…≤x(n)
在R中,sore()给出样本的次序统计量的观察值。
sore(x):数据按升序排列, decreasing=TRUE 为降序。
sore(x,na):有缺失值的数据,不处理缺失数据。
sore(x,=T):排序保留缺失数据,排在最后。
sore(x,=F):排序保留缺失数据,排在最前。
与sore(x)相关的函数:
order()给出排序后的下标。
rank()给出样本的秩统计量。
第6页/共47页
8
(1);z=sample(1:100,9);z#设置种子,在1~100中任取9个数,比较与sample(1:100,9,rep=T)(1)的不同,
[1] 27 37 57 89 20 86 97 62 58
sort(z)
[1] 20 27 37 57 58 62 86 89 97
sort(z, decreasing=TRUE)
[1] 97 89 86 62 58 57 37 27 20
order(z)
[1] 5 1 2 3 9 8 6 4 7
z[order(z)]
[1] 27 37 57 89 20 86 97 62 58
which(z==max(z))#给出最大值下标,
[1] 7
which(z==median(z))#给出中位数下标
[1]9
(排序,次序统计量的样本值,最大值、中位数下标)
第7页/共47页
9
(m