1 / 56
文档名称:

面向新浪微博的数据采集和社区发现算法研究.pdf

格式:pdf   页数:56
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向新浪微博的数据采集和社区发现算法研究.pdf

上传人:绝对好男人 2013/5/31 文件大小:0 KB

下载得到文件列表

面向新浪微博的数据采集和社区发现算法研究.pdf

文档介绍

文档介绍:分类号学号 M200972534
学校代码 10487 密级

硕士学位论文



面向新浪微博的数据采集和
社区发现算法研究


学位申请人: 史春永
学科专业: 信息安全
指导教师: 李芝棠教授
答辩日期: 2012 年 1 月 11 日
A Dissertation Submitted in Partial Fulfillment of the Requirements
For the Degree of Master of Engineering




The Research of Data Collection munity
Discovery Algorithm Based on the Sina Microblog





Candidate : Shi Chunyong
Major : Information Security
Supervisor : Zhitang







Huazhong University of Science & Technology
Wuhan 430074, P. R. China
Jan, 2012
独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研
究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或
集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在
文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。


学位论文作者签名:
日期: 年月日


学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权
保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检
索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密□,在_____年解密后适用本授权书。
本论文属于
不保密□。
(请在以上方框内打“√”)

学位论文作者签名: 指导教师签名:
日期: 年月日日期: 年月日
华中科技大学硕士学位论文
摘要
伴随着互联网和移动通信技术的飞速发展,越来越多的人们正通过在线网络进
行各种社会活动。社会网络的组构、以及其上的信息传递正在突破时空和管理边界,
影响到各国网民和各个角落。社交网络(或称在线社会网络)已经成为现实社会的
重要组成部分之一。对在线社交网络研究也随之倍受关注,成为了现下科学研究领
域的一个热点问题。
社交网络具有规模庞大,结构复杂以及海量信息实时传播的特征,因此,如何
对海量数据进行采集、存储和分析成为亟需研究的问题。面对如此庞大的数据,数
据采集平台使用了一种基于分布式的数据采集平台,其全局设计采用C/S架构,分布
式的数据采集策略;为了减小索引服务器的性能瓶颈,在索引服务器上采用了数据
切分、二级缓存队列等技术;而在爬虫机的设计中,为了提高爬虫机的数据采集效
率,同样利用了二级缓存技术来减小线程的耦合度,并采用线程池、账户轮换等技
术来提高爬虫机的并行性和突破新浪微博的访问限制。数据存储平台则采用Hadoop
分布式文件系统进行存储,并根据数据采集平台采集的数据得到的统计结果,对数
据结构进行了改进。
对于社交网络的分析研究主要是提出了一个重叠社区发现算法。传统的社区发
现算法大多基于这样一个前提,即每个节点只属于一个社区,而现实中恰恰相反,
一个节点可以同时属于不止一个社区。针对在线社交网络中的用户并不仅仅属于一
个社区,存在多重性,提出了一个允许社区重叠的社区发现算法,针对在线社交网
络的庞大数据量设计基于Hadoop平台的Mapreduce框架的并行化技术,以使对于社区
发现算法可以应用于海量数据。
海量数据采集和存储系统已经正式投入使用,可以稳定的运行,高效地从新浪
微博获取用户数据。重叠社区发现算法在对经典社交网络Karate俱乐部网络和美国大
学足球联赛网络进行实验得到了比较满意的结果。

关键词: 社交网络,数据采集,海量数据,社区发现
I
华中科技大学硕士学位论文
Abstract
With the rapid development of the and munication technology,
more and more people do a