1 / 330
文档名称:

基于r的统计分析与数据挖掘.ppt

格式:ppt   大小:5,944KB   页数:330页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于r的统计分析与数据挖掘.ppt

上传人:相惜 2022/3/6 文件大小:5.80 MB

下载得到文件列表

基于r的统计分析与数据挖掘.ppt

文档介绍

文档介绍:第1R
《基于R的统计分析与数据挖掘》
整理ppt
为什么选择R和如何学****R
R语言是一种面向统计分析的计算机高级语言,属于数据分析软件范畴
根据由浅入深的数据分析需求,依据数据分析过程分阶段、分步骤地学****R,是一种快速有效掌握型,基本书写格式为:
(数据对象名)
向量转换为因子:因子是一种特殊形式的向量。由于一个向量可视为一个变量,如果该变量的计量类型为分类型,则将对应的向量转换为因子,这样更利于后续的数据分析。基本书写格式为:
(向量名)
整理ppt
从文本文件读数据
可利用scan函数将文本数据读入到向量中,基本书写格式为:
scan(file=”文件名”,skip=行数,what=存储类型转换函数())
,基本书写格式为:
(file="文件名", header = TRUE/FALSE, sep="数据分隔符")
整理ppt
第3章 R 的数据管理
《基于R的统计分析与数据挖掘》
整理ppt
数据合并
数据合并是指将存储在两个R数据框中的两份数据,以关键字为依据,以行为单位做列向合并。通常,这些数据是关于观测对象不同侧面的描述信息,合并后将利用数据多角度的综合分析和研究
实现数据合并的函数是merge函数,基本书写格式为:
merge(数据框名1,数据框名2,by="关键字")
整理ppt
数据合并
示例:
整理ppt
数据排序
数据排序不仅便于数据浏览,更有助于快速找到数据中可能存在的错误数据、异常数据等。可按单个变量取值的升序或降序排序数据,称为单变量排序。也可依据多个变量进行多重排序。实现数据排序的函数是order函数,基本书写格式为:
order(向量名列表, = TRUE/FALSE/NA, decreasing =TRUE/ FALSE)
整理ppt
数据排序
示例:
整理ppt
缺失数据报告
导致缺失数据的主要原因有两类:
第一,数据无法或很难获得。如家庭储蓄总额等。对此,R用符号NA(Not Available)表示,NA即为缺失值
第二,由于各种原因数据取了明显不合理的值。如年龄是230岁等。对此,R用符合NaN(Not a Number)表示,NaN也是一种缺失值
整理ppt
判断缺失值和完整观测
判断变量是否取缺失值的函数是is函数,基本书写格式为:
(向量名),(向量名)
为逐个判断每个观测样本是否有取缺失值的变量(域),,基本书写格式为:
(矩阵名或数据框名)
整理ppt
判断缺失值和完整观测
示例:
整理ppt
生成缺失数据报告
为进一步得到关于数据缺失状况的全面报告,可利用mice包提供的相关函数
,基本书写格式为:
(矩阵名或数据框名)
示例:
整理ppt
变量计算
变量计算是在原有数据基础上派生出信息更加丰富的新变量。或者对原有变量进行变换处理以满足后续建模的需要
变量计算可借助赋值语句,通过恰当的表达式实现:
对象名 <- R的算术表达式或关系表达式
整理ppt
变量计算函数
R表达式中的函数种类很多,从计算目的上大致分为数学函数、统计函数、概率函数、字符串函数等
示例:
整理ppt
用户自定义函数
尽管系统函数能够满足绝大部分的变量计算需求,但有时也可能无法完成较为繁琐的,需经多个步骤才能完成的,具有用户个性需求的计算任务。如果这个计算具有一定的功能完整性且应用场合较多,就有必要将其编写成,或称定义成一个独立程序段,即函数。与系统函数不同的是,这些函数是用户自行编写的,因而称为用户自定义函数
整理ppt
用户自定义函数的定义
定义函数,即明确给出函数说明和函数体。定义的基本书写格式为:
用户自定义函数名<-function(参数列表){
计算步骤1
计算步骤2
……
return(函数值)
}
整理ppt
用户自定义函数的定义
示例:
整理ppt
变量值的重编码:分组
分组是按一定方式将数值型变量的变量值分成若干个区间,每个区间即是一个分组。例如,可将学生各科成绩的平均分为A、B、C、D、E5个组,分别对应优、良、中、及格、不及格成绩。分组后的变量为分类型变量,一般在R中以因子方式组织
整理ppt
变量值的重编码:分组
示例:
整理ppt
变量值的重编码:重定义类别值
重定义类别值是对分类型变量的类别值重新进行编码。例如,学生成绩数据中的性别,原本用1和 2依次指代男女,若希望修改为M和