1 / 35
文档名称:

火龙果大数据的存贮和处理.ppt

格式:ppt   页数:35页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

火龙果大数据的存贮和处理.ppt

上传人:分享精品 2016/2/28 文件大小:0 KB

下载得到文件列表

火龙果大数据的存贮和处理.ppt

相关文档

文档介绍

文档介绍:**大数据的存贮和处理**课程内容?概述?大规模文件系统和Mapreduce?相似项发现?数据流挖掘?链接分析?频繁项集?聚类?Web广告?推荐系统教材?/~ullman/mmds/?大数据-互联网大规模数据挖掘与分布式处理?./****第一章数据挖掘的基本概念?1·1 数据挖掘的定义? 数据挖掘的统计限制?1·3 相关知识数据挖掘的定义?数据挖掘是数据模型的发现过程。?什么是模型?–统什模型:?研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合–机器学****将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据**什么是模型??机器学****的长处。当对要在数据中寻找的目标一无所知的时候。flix竞赛。?如目标能明确描述,机器学****方法并不成功。如在web上寻找个人简历。,**建模的计算方法?数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。?除了统计建模,其它大部分建模方法可分为如下两类–对数据进行简要汇总–从数据中抽取最突出的特征来代替数据并将剩余内容忽略。**数据汇总?pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。?聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。****特征抽取?从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:–频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。–相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤