文档介绍:北京交通大学
硕士学位论文
基于Hadoop平台的通信数据分布式查询算法的设计与实现
姓名:陈勇
申请学位级别:硕士
专业:计算机科学与技术
指导教师:林友芳
20090601
摘要心。同时,在网络分层扩展时要用到广度优先搜索算法,需要在海量原始数据中数据是信息的载体,随着信息化的不断发展,数据在现代社会生活中承担着越来越重要的角色。社会网络分析就是利用图论、数据挖掘等技术手段从社会网络数据集中寻找有用的信息。由于社会网络分析所处理的数据通常是很庞大的。因而对数据处理的能力要求很高。大规模通信社会网络数据分析与可视化系统是一个专门处理通信数据集的社会网络分析工具。它提供了社会网络分层扩展等一系列数据分析与可视化的基本操作。对于该系统来说,图的分层扩展涉及到在海量数据中进行查询,因而对数据查询效率有着很高的要求。采用传统的关系型数据库或等虽然能够满足复杂条件的查询,但在处理级的大规模原始数据集时就显得力不从进行遍历操作,这在关系数据库中的效率是很低的。以上情况就迫切需要我们解决数据查询和处理中存在的瓶颈。在分析了现有分布式存储系统与云计算平台的基础上,本文提出了一种基于平台的分布式数据存储和查询改进方案。本文重点阐述了通信数据分布式存储与查询在平台上的实现。据菘獾奶厣杓屏送ㄐ派缁嵬缡蚰P汀J迪至嘶于菘馍系奶跫檠2⒍陨杓坪玫氖菽P徒辛擞呕W詈笤贖数据服务平台上实现了面向软件客户端的数据访问服务。设计了适合通信社会网络数据特色的疪惴āMü齅和函数实现了数据的并行查询和处理。在数据查询过程中,还将数据遍历过程放在函数中,从而使广度优先搜索算法的层次遍历过程也能够并行运行。这在很大稃度上优化了数据查询和分层扩展的效率。通信数据分布式存储与查询方案在平台上的成功实施具有很重要的意义。平台只需要部署在普通的廉价机上即可运行,却能够处理的级数据。高效却又节约成本,因此具有很高的现实意义与应用价值。关键词:平台;疪惴ǎ环植际讲殇籋分类号:
;,...:,,瑆琲産瓼疪甅,籋,..甋畇瓼琤—猻,’.,瓵,.瑃..琤..琲籇
,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
⋯⋯躲慨一期:辎签字熙乃哆年多月/猡同学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得导师签名:
致谢几经彷徨求索,论文终于得以完成。回顾这一程求学路,记忆罩满是老师的悉心指导和同学的快乐相伴,在此我要向他们表达最诚挚的感谢。饮其流时思其源,成吾学时念吾师,在此论文完成之际,谨向我尊敬的导师林友芳老师致以诚挚的谢意和崇高的敬意。林老师丰富的实践经验、渊博的专业知识、务实忘我的工作作风、宽以待人的处事态度使我受益匪浅。他精益求精的工作作风,深深地感染和激励着我。他对学生的理解和宽容常让我心生感动。临别之际,在此真诚地对林老师表示谢意。我还要感谢魏名元老师、韩升老师、实验室的其他各位老师,两年来给我最细心的指导和帮助。各位老师在两年的研究生生活中不仅教给了我很多知识,还给我营造了一个轻松快乐的学习、研究氛围。研究生期间朝夕相处的同学也是宝贵的财富,感谢王天宇、陆鹏、武志吴三位同窗好友让我体会到的真挚友情。感谢我所有师兄弟妹、同学、朋友们,是你们的情谊和帮助,让我在两年的研究生生活中感到踏实温暖。同时还要特别感谢我的师兄万怀宇和薛斌同学,在我写论文的过程中给我悉心的指导,让我掌握了书写论文的技巧,保证了论文能够高质量的完成。衷心感谢在百忙之中抽出时问审阅本论文的专家教授,感谢答辩委员会的各位老师和专家们对我的论文提出的宝贵建议,为我今后的学习和研究开拓了思路。最后感谢我的亲人,焉得谖草,言树之背,养育之恩,无以回报,你们永远健康快乐是我最大的心愿。
课题研究背景近年来,社会网络分析已经成为了一个热门的研究领域。随着图论、随机网络等知识不断融入,使得社会网络分析技术有了很大的发展。同时随着通信技术的嫫占埃ㄐ牌笠档目突Я亢鸵滴袷萘考本缭黾樱酝ㄐ攀莸纳畈愦畏析也随之变得迫切起来。将通信数据与社会网络分析技术结合起来,通过对通信数据的分析,可以为通信企业执行营销策略提供决策支持。在数据分析过