文档介绍：基于Hadoop云计算平台的K
-->第一章绪论
第一节研究目的及意义
随着现代计算机科学的飞速发展以及互联网的普及,世界已经进入了一个高度信息化的时代,各式各样数据量庞大的信息充斥在人们周围。在信息量越来越大的数据面前,传统基于数据库存储的解决方案显得越来越捉襟见肘[1]。如何利用现代计算机的高计算能力,在无人工监督情况下自动地从大数据中提取出潜在的、对人们生产生活有价值的信息就成为了一个迫在眉睫的问题[2]。聚类分析是一种根据不同规则将输入的原始数据集进行分类的方法[3]。想要从数据中提取信息,首要任务就是将其分类处理,因此聚类分析是数据挖掘过程的第一个步骤。随着移动互联网、物联网以及人工智能的发展,apReduce 等[10-12]。作为世界范围内首次公布的关于分布式云计算系统架构搭建方案的范本,Google 提出的三驾马车至今都有着非常大的影响力[13]。
...............
第二章相关技术研究与分析
第一节Hadoop 云计算平台
在各类大数据处理框架之中,Hadoop 最富盛名,高效、可靠、可伸缩是它最显著的特点,也因此被企业及开发者广泛推崇与研究,它常被用来对大数据进行储存、处理以及分析等操作。
...............
第二节系统架构概述
Hadoop最初由Apache基金会投入开发,它的基本框架遵循了Google早前公布的三大核心组件,即轰动一时的GFS、MapReduce以及BigTable。它的诞生使得用户可以利用现代大规模的集群取代传统的单机服务器进行高速存储和运算操作,这也为开发分布式大数据处理程序奠定了坚实的基础。Hadoop有许多特点,例如效率高、可靠性强、容错能力好以及部署运维成本低等。下面对其特点详细描述。
...............
第三章聚类分析系统的设计与实现............................19
第一节系统简介........................................... 19
第二节底层环境搭建........................................21
第四章 K-Means 并行算法的改进.............................32
第一节传统 K-Means 算法...................................32
第二节K-Means 算法改进方案................................34
第四章 K-Means 并行算法的改进
第一节、传统 K-Means 算法
作为最典型的聚类算法之一,K-Means 算法已经问世了半个世纪。作为典型的基于样本距离计算类簇的算法,K-Means 算法的效率相对较高,因此无论在理论研究还是实际生产中都被大规模的使用,具有很高的地位及影响力。算法的改进研究也有许多,例如基于随机采样原理的Random K-Means算法、增量处理原始数据集 Online K-Means 算法等。K-Means 算法思路:首先需要用户确定最终聚类结果的簇数目(即 K 值),然后在原始数据集中随机选择数量为 K 的初始类簇中心。之后就是反复迭代的过程,需要计算全量的数据对象到各个类簇中心的间距