文档介绍:分类号学号 M200972449
学校代码 1 0 4 8 7 密级
硕士学位论文
基于增量爬虫与微博的视频资源推广
技术研究
学位申请人: 刘慧
学科专业: 计算机应用技术
指导教师: 陆枫副教授
答辩日期: 2012 年 1 月 12 日
A Thesis Submitted in Full Fulfillment of the Requirements
for the Degree of Master of Engineering
Design and Implementation of Microblogging System Based on
Incremental Crawler for Video Resources
Candidate : Liu Hui
Major : Computer Application Technology
Supervisor : Associate Feng
Huazhong University of Science & Technology
Wuhan 430074,
January, 2012
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研
究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或
集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在
文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保
留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检
索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于保密,在年解密后适用本授权书。
不保密。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年月日日期: 年月日
华中科技大学硕士学位论文
摘要
近年来,互联网上的视频资源激增至了一个前所未有的水平。巨量增长的视频
资源耗费着大量的服务器存储与带宽资源。然而,在线视频资源的利用率依然不高,
视频资源提供商回报率低。对于无目的用户浏览,新兴的社交网络能发挥显著作用,
具有一定热度的视频资源均能通过群体智慧得到传播。
通过充分利用增量爬虫、微博模型、微博标注等一系列互联网资源的采集与推
广技术,研制相应的视频资源推广策略,尽可能多地将各类视频推送给用户,满足
时新性、多样性、热门等技术要求,提高视频资源的利用率。
首先,为提供最新最热的视频资源,针对现有爬虫技术普遍存在的刷新代价大
和数据冗余等问题,研制了适用于视频资源采集的刷新策略,基于信息周期理论,利
用效用值上下边界确定该刷新策略,以较小刷新代价获得较好的视频资源时新度,
也就是保障能以最小的刷新次数尽快获取最新的视频资源。其次,通过整合视频播
放服务与微博模式,利用微博基于信任的传播链帮助增加用户粘性,并借助群体智
慧采集视频精彩时间点标注信息,形成良性循环。最后,基于研制的推广策略,开
发了一套基于微博的视频资源推广网站——微亮点。
实验证明,经过改进的基于效用值上下边界方法更适用于视频资源的采集,能
很好的平衡时新度以及刷新代价。微亮点在上线后,运行稳定,获得较好的用户体
验。通过视频统计证实其确实能在页面的首页推荐最热视频,从而帮助进行微博分
享传播,增加视频资源的利用率。
关键词:微博,爬虫,刷新策略,群体智慧
I
华中科技大学硕士学位论文
Abstract
Driven by the age of generation and the advent of near-ubiquitous broadband
access, online delivery of video content have surged to an unprecedented level.
The explosive growth in content has given rise to the need of developing effecti