1 / 116
文档名称:

大数据应用基础分类算法.ppt

格式:ppt   大小:5,337KB   页数:116页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:大数据应用根底分类算法


大数据复习

2

大数据的核心是什么
大数据人才可以分为分析人才和架构人才。
其中,需求量最大的是分析人才。
而分析的核心是数据挖掘。
大数据目前的开展重点是怎么对非构造化数据进展数据挖掘。
物联网、智能手机、可穿戴、智能硬件等技术设备将正在让数据成几何倍数增长。
3

大数据的核心——非构造化数据
构造化数据的分析相比照较成熟,比方Excel、关系型数据库、数据仓库的OLAP在企业中已经无人不知。
对于非构造化数据,难点在于:
数据收集与集成:设法通过各种设备收集数据,并把各种数据来源集成起来。例如,围绕一个人,怎样能从公司内部和外部的各种渠道,收集他多方面的数据,把其中的非构造化数据转化成构造化数据,然后把各种数据集成起来,从而用一个特征向量来表示他的特征。
数据分析:怎样分析这种高维度的数据。非构造化数据的维度是无止境的,比方百度能分析几十亿维的特征。
4

大数据架构技术的核心
主要有两种计算:
离线分布式计算
这种计算能处理海量数据,并运行复杂的算法,其中包括数据挖掘算法、非构造化数据特征的提取〔例如搜索引擎索引的编制〕、推荐算法等。
它能充分发挥分布式计算的优点,但是完成所需计算的耗时可能是几分钟、几小时或更长时间,因此有时还需要用在线计算加以补充。
主要的开源技术是Hadoop。这也是最热门的大数据架构技术。
很多算法都有其适合于在Hadoop平台上进展分布式运行的版本。大数据分析人员应能掌握常见算法的分布式版本。
在线分布式计算
可以把一些简单的计算以极快的速度完成。例如,搜索引擎的反响时间、广告交易平台的更新时间都在0.1秒以内。
相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。
5

大数据架构技术的核心
此外,还有一种重要技术,叫内存计算。
原理是:在内存里计算比在硬盘里计算快得多。
这种技术使用的前提就是内存足够大。商用方案有SAP Hana等。
它可以和分布式计算结合。例如,开源平台Spark就采取这种思路。
6

大数据技术中的算法
大数据技术中的算法不只是数据挖掘。
除了数据挖掘,典型的计算任务还有:
搜索引擎中的文本特征提取,即相对词频计算
推荐系统中的用户间相似度计算、物品间相似度计算等
不过,数据挖掘无疑是最重要的一大类算法。
7

数据挖掘的概念辨析
和统计相比,数据挖掘倾向于处理大规模数据,并且其宗旨是减少人工操作。而统计往往有赖于分析人员手工操作。在统计之前,常常对变量间的关系做假设;而数据挖掘的重点在于预测的结果,不一定追究预测的依据。
数据挖掘和人工智能、机器学习的重合度非常高。不过,早先的人工智能侧重于由人工设定规那么,而当今越来越重视从数据中自动获得知识、
对于非构造化数据的挖掘,通常需要把非构造化数据转化成构造化的形式,然后再采用数据挖掘算法。
数据挖掘不只是要重视算法,提高数据质量、理解应用领域也是不可或缺的。
8

数据挖掘的根本流程









数据预处理
2









评估
4
信息收集
3









1
数据挖掘
3









3
知识表示
3









5
9

数据挖掘算法分类
有监视学习:分类与回归
有标识。
通过模仿做出正确分类的已有数据,从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。
无监视学习:聚类、关联规那么
无标识
聚类:针对客户特征进展客户群划分。由此,我们可以对不同客户群采取差异化的促销方式。
关联规那么:分析发现购置面包的顾客中有很大比例的人同时购置牛奶。由此,我们可以把面包和牛奶摆在同一个货架上。
此外,降维方法经常效劳于数据挖掘算法
它把特征维度降低,从而使运算更快。
10

分享好友

预览全文

大数据应用基础分类算法.ppt

上传人:1485173816 2021/9/15 文件大小:5.21 MB

下载得到文件列表

大数据应用基础分类算法.ppt

相关文档