文档介绍：第1R
《基于R的统计分析与数据挖掘》
整理ppt
为什么选择R和如何学****R
R语言是一种面向统计分析的计算机高级语言，属于数据分析软件范畴
根据由浅入深的数据分析需求，依据数据分析过程分阶段、分步骤地学****R，是一种快速有效掌握型，基本书写格式为：
(数据对象名)
向量转换为因子：因子是一种特殊形式的向量。由于一个向量可视为一个变量，如果该变量的计量类型为分类型，则将对应的向量转换为因子，这样更利于后续的数据分析。基本书写格式为：
(向量名)
整理ppt
从文本文件读数据
可利用scan函数将文本数据读入到向量中，基本书写格式为：
scan(file=”文件名”,skip=行数,what=存储类型转换函数())
，基本书写格式为：
(file="文件名", header = TRUE/FALSE, sep="数据分隔符")
整理ppt
第3章 R 的数据管理
《基于R的统计分析与数据挖掘》
整理ppt
数据合并
数据合并是指将存储在两个R数据框中的两份数据，以关键字为依据，以行为单位做列向合并。通常，这些数据是关于观测对象不同侧面的描述信息，合并后将利用数据多角度的综合分析和研究
实现数据合并的函数是merge函数，基本书写格式为：
merge(数据框名1,数据框名2,by="关键字")
整理ppt
数据合并
示例：
整理ppt
数据排序
数据排序不仅便于数据浏览，更有助于快速找到数据中可能存在的错误数据、异常数据等。可按单个变量取值的升序或降序排序数据，称为单变量排序。也可依据多个变量进行多重排序。实现数据排序的函数是order函数，基本书写格式为：
order(向量名列表, = TRUE/FALSE/NA, decreasing =TRUE/ FALSE)
整理ppt
数据排序
示例：
整理ppt
缺失数据报告
导致缺失数据的主要原因有两类：
第一，数据无法或很难获得。如家庭储蓄总额等。对此，R用符号NA（Not Available）表示，NA即为缺失值
第二，由于各种原因数据取了明显不合理的值。如年龄是230岁等。对此，R用符合NaN（Not a Number）表示，NaN也是一种缺失值
整理ppt
判断缺失值和完整观测
判断变量是否取缺失值的函数是is函数，基本书写格式为：
(向量名)，(向量名)
为逐个判断每个观测样本是否有取缺失值的变量（域），，基本书写格式为：
(矩阵名或数据框名)
整理ppt
判断缺失值和完整观测
示例：
整理ppt
生成缺失数据报告
为进一步得到关于数据缺失状况的全面报告，可利用mice包提供的相关函数
，基本书写格式为：
(矩阵名或数据框名)
示例：
整理ppt
变量计算
变量计算是在原有数据基础上派生出信息更加丰富的新变量。或者对原有变量进行变换处理以满足后续建模的需要
变量计算可借助赋值语句，通过恰当的表达式实现：
对象名 <- R的算术表达式或关系表达式
整理ppt
变量计算函数
R表达式中的函数种类很多，从计算目的上大致分为数学函数、统计函数、概率函数、字符串函数等
示例：
整理ppt
用户自定义函数
尽管系统函数能够满足绝大部分的变量计算需求，但有时也可能无法完成较为繁琐的，需经多个步骤才能完成的，具有用户个性需求的计算任务。如果这个计算具有一定的功能完整性且应用场合较多，就有必要将其编写成，或称定义成一个独立程序段，即函数。与系统函数不同的是，这些函数是用户自行编写的，因而称为用户自定义函数
整理ppt
用户自定义函数的定义
定义函数，即明确给出函数说明和函数体。定义的基本书写格式为：
用户自定义函数名<-function(参数列表){
计算步骤1
计算步骤2
……
return(函数值)
}
整理ppt
用户自定义函数的定义
示例：
整理ppt
变量值的重编码：分组
分组是按一定方式将数值型变量的变量值分成若干个区间，每个区间即是一个分组。例如，可将学生各科成绩的平均分为A、B、C、D、E5个组，分别对应优、良、中、及格、不及格成绩。分组后的变量为分类型变量，一般在R中以因子方式组织
整理ppt
变量值的重编码：分组
示例：
整理ppt
变量值的重编码：重定义类别值
重定义类别值是对分类型变量的类别值重新进行编码。例如，学生成绩数据中的性别，原本用1和 2依次指代男女，若希望修改为M和