1 / 35
文档名称:

大数据之R语言培训课件.pptx

格式:pptx   大小:3,117KB   页数:35页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据之R语言培训课件.pptx

上传人:读书百遍 2022/7/29 文件大小:3.04 MB

下载得到文件列表

大数据之R语言培训课件.pptx

相关文档

文档介绍

文档介绍:大数据
BIG DATA
大数据之R语言培训课件
第1页
第五章 R语言
 R语言介绍
 R与数据挖掘
 SparkR<br****题
of
44
2掘
数据挖掘(Data Mining)是从大量数据中发觉有趣知识过程,包括统计学、机器学****模式识别等多个交叉;
主要技术包含分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。
R语言与数据挖掘相关任务视图
MachineLearning:主要包括机器学****和统计学****功效
Cluster:主要包括聚类分析和有限混合模型
TimeSeries:主要包括时间序列分析
Multivariate:主要用于多元统计分析及其算法
Spatial:主要用于空间数据分析
R语言主要用于统计计算和统计制图,提供了大量统计和制图工具
of
44
11
大数据之R语言培训课件
第11页
R与数据挖掘
《大数据》配套PPT课件
K-近邻算法
决议树
支持向量机
分类与预测算法
分类与预测算法
of
44
12
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第12页
R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—K-近邻算法
of
44
13
假如一个样本与特征空间中K个最相同(特征空间中最邻近)样本中大多数属于某一个类别,则该样本也属于这个类别
&gt; library(kknn)&#160;&#160;
&gt; data(iris)&#160;&#160;
&gt; m&#160;&lt;-&#160;dim(iris)[1]&#160;&#160;
&gt; val&#160;&lt;-&#160;sample(1:m,&#160;size&#160;=round(m/3),&#160;replace&#160;=&#160;FALSE,&#160;&#160;
&gt; +prob=&#160;rep(1/m,&#160;m))&#160;&#160;
&gt; &#160;&lt;-&#160;iris[-val,]&#160;&#160;
&gt; &#160;&lt;-&#160;iris[val,]&#160;&#160;
&gt; &#160;&lt;-&#160;kknn(Species~.,,&#160;,&#160;distance&#160;=&#160;5,&#160;&#160;
&gt; +kernel=&#160;&quot;triangular&quot;)&#160;&#160;
&gt; summary()&#160;&#160;
&gt; fit&#160;&lt;-&#160;fitted()&#160;&#160;
&gt; table($Species,&#160;fit)&#160;
fit
setosa versicolor virginica
setosa 12 0 0
versicolor 0 21 0
virginica 0 0 17
kknn函数使用
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第13页
R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—决议树
of
44
14
iris数据集决议树
决议树(Decision Tree)是一个依靠于分类、训练上预测树,依据已知预测、归类未来
生成树阶段
决议树修剪阶段
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第14页
R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—支持向量机
of
44
15
支持向量机(Support Vector Machine,SVM)是一个二分类方法,即将数据集中数据分为两类
SVM中超平面对比
利用超平面分割数据集
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第15页
R与数据挖掘
《大数据》配套PPT课件
聚类算法及其R包
“聚类”是依据“物以类聚”原理,将本身没有类别样本聚集成不一样组(或称为簇),并对每个簇进行描述过程
惯用聚类算法主要包含K-means聚类、层次聚类和基于密度聚类
K-means聚类
层次聚类
基于密度聚类
of
44
16
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第16页
R与数据挖掘
《大数据》配套PPT课件
聚类算法及其R包—K-means聚类
of
44
17
同一聚类中对象相同度较高;而不一样聚类中对象相同度较小
部分鸢尾花数据3-