1 / 8
文档名称:

MapReduce-Kmeans聚类.ppt

格式:ppt   页数:8页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

MapReduce-Kmeans聚类.ppt

上传人:tswng35 2016/3/7 文件大小:0 KB

下载得到文件列表

MapReduce-Kmeans聚类.ppt

文档介绍

文档介绍:一个 MapReduce 简单实例 MapReduce 原理? MapReduce 是 Hadoop 的分布式计算框架,处理海量数据的并行编程模式。?将任务分解在多个结点并行处理,并对结果进行归并。? MapReduce 包括两个部分 Map 和 Reduce: - Map 负责把任务分解成多个任务- Reduce 负责把分解后多任务处理的结果汇总起来 2 ?语料描述:包含路透社共 21578 篇新闻报道, 专业人员手工标注,形式化语料库。?预处理:抽取其中<TITLE> 和<BODY> 中的文本,即标题+正文。去除停用词,表示成以 TF * IDF 为权值的词向量。?聚类方法:选用 K-means 算法。 3实例- 选择经典的 Reuters21578 文本语料,对新闻内容进行文本聚类。 4 抽取的新闻文本: 文本词向量表示: ?1, Map 读取分配到该节点的每条数据,与中心做对比,求出该条记录对应的中心,然后以中心的 ID为 Key ,该条数据为 value 将数据输出。?2,利用 reduce 的归并功能将相同的 Key 归并到一起,集中与该 Key 对应的数据,再求出这些数据的平均值,输出新聚类中心。 5 MapReduce 下 K-means 并行化实现聚类结果 6 Key 是类簇 ID, Value 是文档的聚类结果: wt是文档属于簇的概率,对于 kmeans 总是 , distance 是与类中心距离, /reut2-- 就是文档名,以及文档向量的各个词 id和权重。本文欣赏结束 7 红藕香残玉簟秋,轻解罗裳,独上兰舟。云中谁寄锦书来?雁字回时,月满西楼。谢谢欣赏!! 8

最近更新

公共基础知识江西省上饶市选调生考试(行政职.. 148页

公共基础知识河北省张家口市选调生考试(行政.. 148页

公共基础知识河南省开封市选调生考试(行政职.. 148页

公共基础知识浙江省杭州市选调生考试(行政职.. 147页

公共基础知识甘肃省甘南藏族自治州选调生考试.. 149页

公共基础知识选调生考试(行政职业能力测验).. 147页

公共基础知识重庆市资阳地区选调生考试(行政.. 149页

公共基础知识陕西省汉中市选调生考试(行政职.. 148页

吉林省松原市事业单位招聘考试(职业能力倾向.. 148页

安徽省合肥市事业单位招聘考试(职业能力倾向.. 147页

安徽省铜陵市事业单位招聘考试(职业能力倾向.. 147页

安徽省黄山市事业单位招聘考试(职业能力倾向.. 147页

山东省东营市事业单位招聘考试(职业能力倾向.. 147页

山东省泰安市事业单位招聘考试(职业能力倾向.. 148页

山西省2024年部分省直事业单位公开招聘人员历.. 60页

广东省清远市选调生考试(行政职业能力测验).. 148页

广西省河池市选调生考试(行政职业能力测验).. 148页

扬州市邗江区2024年公开招聘区直事业单位工作.. 60页

中药材种植项目商业计划书 72页

分部工程强制性条文执行情况检查表(填写样板).. 6页

2024年生态文明作文通用篇 19页

药学专业调研报告 27页

外保内贷,登记,合同效力 8页

核心力量与体能训练教学设计 7页

危险源分析及控制表 7页

XXXX装修工程监理报告【精选】 5页

保健食品功效成分检测方法(2002) 王光亚 237页

基于单片机火灾报警器设计 38页