文档介绍:一个 MapReduce 简单实例 MapReduce 原理? MapReduce 是 Hadoop 的分布式计算框架,处理海量数据的并行编程模式。?将任务分解在多个结点并行处理,并对结果进行归并。? MapReduce 包括两个部分 Map 和 Reduce: - Map 负责把任务分解成多个任务- Reduce 负责把分解后多任务处理的结果汇总起来 2 ?语料描述:包含路透社共 21578 篇新闻报道, 专业人员手工标注,形式化语料库。?预处理:抽取其中<TITLE> 和<BODY> 中的文本,即标题+正文。去除停用词,表示成以 TF * IDF 为权值的词向量。?聚类方法:选用 K-means 算法。 3实例- 选择经典的 Reuters21578 文本语料,对新闻内容进行文本聚类。 4 抽取的新闻文本: 文本词向量表示: ?1, Map 读取分配到该节点的每条数据,与中心做对比,求出该条记录对应的中心,然后以中心的 ID为 Key ,该条数据为 value 将数据输出。?2,利用 reduce 的归并功能将相同的 Key 归并到一起,集中与该 Key 对应的数据,再求出这些数据的平均值,输出新聚类中心。 5 MapReduce 下 K-means 并行化实现聚类结果 6 Key 是类簇 ID, Value 是文档的聚类结果: wt是文档属于簇的概率,对于 kmeans 总是 , distance 是与类中心距离, /reut2-- 就是文档名,以及文档向量的各个词 id和权重。本文欣赏结束 7 红藕香残玉簟秋,轻解罗裳,独上兰舟。云中谁寄锦书来?雁字回时,月满西楼。谢谢欣赏!! 8