1 / 34
文档名称:

大数据存贮和处理办法.ppt

格式:ppt   大小:329KB   页数:34页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据存贮和处理办法.ppt

上传人:annimy 2021/9/25 文件大小:329 KB

下载得到文件列表

大数据存贮和处理办法.ppt

文档介绍

文档介绍:大数据存贮和处理办法
课程内容
概述
大规模文件系统和Mapreduce
相似项发现
数据流挖掘
链接分析
频繁项集
聚类
Web
推荐系统
大数据存贮和处理办法
*
教材
大数据-互联网大规模数据挖掘与分布式处理
大数据存贮和处理办法
*
第一章数据挖掘的基本概念
1·1 数据挖掘的定义
数据挖掘的统计限制
1·3 相关知识
大数据存贮和处理办法
*
数据挖掘的定义
数据挖掘是数据模型的发现过程。
什么是模型?
统什模型:
研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合
机器学****br/>将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据
大数据存贮和处理办法
什么是模型?
机器学****的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。
如目标能明确描述,机器学****方法并不成功。如在web上寻找个人简历。,
大数据存贮和处理办法
*
建模的计算方法
数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。
除了统计建模,其它大部分建模方法可分为如下两类
对数据进行简要汇总
从数据中抽取最突出的特征来代替数据并将剩余内容忽略。
大数据存贮和处理办法
*
数据汇总
pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。
聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。
大数据存贮和处理办法
*
大数据存贮和处理办法
*
特征抽取
从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:
频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。
相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤
大数据存贮和处理办法
*