文档介绍:学校代号:10532
学 号:S1010W130
密 级:
湖南大学工程硕士学位论文
基于 Hadoop 的共享决策树挖掘
算法研究
学位申请人姓名: 张 超
导师姓名及职称: 陈湘涛 副教授 邹忠 高级工程师
培 养 单 位: 信息科学与工程学院
专 业 名 称: 计算机技术
论文提交日期: 2013 年 5 月 8 日
论文答辩日期: 2013 年 5 月 25 日
答辩委员会主席: 骆嘉伟 教授
Research on Parallel Shared Decision Tree Algorithm based on Hadoop
by
ZHANG Chao
. (The PLA Information Engineering University) 2009
A thesis submitted in partial satisfaction of the
Requirements for the degree of
Master of Engineering
in
Computer Science and Technology
in the
Graduate School
of
Hunan University
Supervisor
Associate Professor CHEN Xiangtao
May, 2013
基于 Hadoop 的共享决策树挖掘算法研究
摘 要
共享知识挖掘是指通过学****不同事物之间的共享知识,将学****到的知识应用
到未知事物来加快认知未知事物。目前,已经有学者对共享知识挖掘进行了研究,
并提出了共享挖掘算法。但是现有的共享挖掘算法都是串行的挖掘算法,只能处
理小规模的数据集,已经无法满足数据急剧增长的需求。为此,本文主要针对共
享知识挖掘算法的并行化做了一系列的研究,主要工作和贡献包括以下几点:
(1)针对大数据集中共享知识串行挖掘算法效率低下的问题,通过引入云
计算技术和决策树挖掘算法的并行思想,提出一种基于 hadoop 的并行共享决策
树挖掘算法(PSDT),该算法基于 MapReduce 并行模型,采用传统的属性表结