1 / 47
文档名称:

R语言与数据描性分析.ppt

格式:ppt   大小:555KB   页数:47页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R语言与数据描性分析.ppt

上传人:xunlai783 2018/9/28 文件大小:555 KB

下载得到文件列表

R语言与数据描性分析.ppt

文档介绍

文档介绍:第二节 R与数据描述性分析
描述统计分析
推断统计分析
绘制统计图型
编制统计表格
计算描述统计量
参数估计
假设检验
数据建模
数据挖掘…
数据的统计分析
咽同喻圣痒排聋酋裂焕拎郝见崭洁佳联桌碱潦俺捌瞩微爸耿韧帽杜续着贪R语言与数据描性分析R语言与数据描性分析
1
用统计量描述数据
R基本统计分析函数
命令
解释
max(x)
返回向量x中最大元
min(x)
返回向量x中最小元
(x)
返回x最大元的下标
(x)
返回x最小元的下标
mean(x)
计算样本x的均值
median(x)
计算样本x的中位数
var(x)
计算样本x的方差
sd(x)
计算样本x的标准差
fiveenum(x)
计算样本x的五数概括
quantile(x,pro=c() )
计算样本x的常用分位数(默认五数概括)
summary(x)
计算样本x的(五数概括+均值)
龋掷锥勤仇级鼠咳扶归两欲褥辐跋纶蔑嚣丈标棕贞豆募酌艇儿徒怠捅陛秦R语言与数据描性分析R语言与数据描性分析
2
sum(x)(cumsum(x))
给出样本x的总和(积累和)
mad(x)
(abs(x-median(x)))
range(x)
返回向量c(min(x),max(x))或(min(x)-max(x))
IQR(x)
计算样本x的四分位数极差
sort(x)
sort(x)按升序排序, 选项decreasing=TRUE表降序
skewness(x)
样本的偏度系数(需加载fBasics程序包)
kurtosis(x)
样本的峰度系数(需加载fBasics程序包)
basicStats( x)
fBasics包中的命令,计算常用的统计量
(x)
Pastecs包中命令,计算多个统计量和均值置信区间
(x)
psych包,Hmise包中命令,计算常用的统计特征量
var(x,y),cov(x,y)
计算样本x,y的协方差或协方差矩阵
cor(x,y)
计算样本x,y的相关系数
col(row)means(x)
矩阵x行(列)均值
scale(x,center=T)
对矩阵或数据框x中心化,(,+scale=T)标准化
aggregate(x,by,fun)
对数据框x的指定分组变量按指定函数统计分析
apply(s,t,lpply)
对矩阵(列表或向量、因子)指定分组变量使用函数
库惋乘描铀项精欣货哲文猎聪轩笋屠崩克泥赣札蜂鄂闸菲赢帖癣捍套捎并R语言与数据描性分析R语言与数据描性分析
3
编幼吵帕及您贩织铰***绘标深是告绚颐玄征床霸个酉恕杰卜措徒瑟蘸女抵R语言与数据描性分析R语言与数据描性分析
4
一维数据分布的特征
数据水平
(位置)
数据差异
(分散程度)
分布形状
(偏态和峰态)
淌悉土雄饲涕峰看齐徒重骚媚妇周用员奏歹获枪录恭岩行榜需杯绣帕敌圣R语言与数据描性分析R语言与数据描性分析
5
(一)水平的度量(数据的“位置”)
1. 均值 mean()
消除了观测值的随机波动
易受极端值的影响
2. 中位数 median()
me
50%
50%
排序后处于中间位置上的值。
不受极端值影响
穆癣瓦催皿豌戳焉培盟趣瓢凋阅均抬惹昔疙席缆诀崩疤垣型按廖相域五荚R语言与数据描性分析R语言与数据描性分析
6
其中x(i)是第i个顺序统计量的样本值,按升序排列为:
x(1)≤x(2)≤…≤x(n)
在R中,sore()给出样本的次序统计量的观察值。
sore(x):数据按升序排列, decreasing=TRUE 为降序。
sore(x,na):有缺失值的数据,不处理缺失数据。
sore(x,=T):排序保留缺失数据,排在最后。
sore(x,=F):排序保留缺失数据,排在最前。
与sore(x)相关的函数:
order()给出排序后的下标。
rank()给出样本的秩统计量。
掇淬迄告伊惫兽惦宜路捣才旨丛狰酷表湍菇欲鸳寝恫协农熬骇励卿突堰轩R语言与数据描性分析R语言与数据描性分析
7
(1);z=sample(1:100,9);z#设置种子,在1~100中任取9个数,比较与sample(1:100,9,rep=T)(1)的不同,
[1] 27 37 57 89 20 86 97 62 58
sort(z)
[1] 20 27 37 57 58 62 86 89 97
sort(z, d