文档介绍:北京邮电大学
硕士学位论文
基于Lucene网络视频垂直搜索系统的设计与实现
姓名:左军
申请学位级别:硕士
专业:软件工程
指导教师:吴国仕
20070524
基于网络视频垂直搜索系统的设计与实现摘要自从以4淼氖悠捣窒硇屯救〉镁薮蟪晒螅视频分享网站也快速发展起来,网络视频的数量开始高速增长,增强了用户对视频搜索的依赖性。大部分视频分享网站站内数据库搜索模式不能满足人们对视频搜索越来越多的要求。本文以用户对网络视频搜索需求为研究背景,结合网络视频市场中对视频信息搜索的需求,在网络视频搜索向基于关键帧方向发展之际,在非关键帧的传统文本搜索模式基础上,采用垂直搜索理念和技术,以国内互联网上的视频分享型网站内容为视频信息特定自动采集对象,来实现网络视频搜索功能。同时为了实现视频信息的全文检索,还引入全文搜索引擎来实现系统的全文搜索功能。本文首先阐述了搜索引擎的基本原理以及垂直搜索的关键技术,然后对基于的全文搜索引擎技术进行必要的说明,最后在对网络视频搜索业务分析的基础上,得到系统的基本功能需求和最终目标。在系统功能需求和目标的基础上,运用治錾杓萍际鹾拖低三层架构思想,对系统的功能设计和数据库设计以及系统数据备份策略进行了详细论述。由于系统的开发环境是,所以,本
文还对、辛吮匾5乃得鳌T诖嘶上,对系统各部分的功能实现进行了简要说明。关键词垂直搜索索引搜索
痭瑃.,猻’.瑃,琲猠,
篤猄,珹琍甇·—.,,,.瑃,.
日期:荨癐日期:趁亟郝本学位论文不属于保密范围,适用本授权书。独创性虼葱滦声明申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:关于论文使用授权的说明导师签名:本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明著表示了谢意。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期问论文工作的知识产权单位属北京邮电大学。学校有权保留井向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑Ⅱ
垂直搜索技术的发展现状新浪等提供的视频搜索则是基于“元数据”搜索。他们都是对全网精确到帧的视频搜索尽管目标是帮助用户精确找到自己需要的视频,但实际上用户输入的查询关键词更多的是视频的文字描述,用关键帧转换的文本信息与用户输入关键词进行匹配,,由于互联网上的很多视频信息并没有打上标签,所以很难被搜索到。另外,在众多视频分享网站层出不穷的同时,大多数用户只能在该网站内进行视频搜索,很难实现全网搜索。在网站内的进行的搜索也不是全文搜索,而是象”的概念指的是搜索引擎在反馈搜索结果时,不再表现一个个独立的页面,,才能为用户返回尽可能精细的结果。首先,抓取互联网上该领域的网然后,对这些被分类的网页进行提取,“提取”就是按照这一类网页的特色,将其中的重要部分抽取出来,通常通过标志器来实现信息的提取,将网页中各个关键部分标记出来,标志器的实现一般基于视觉信息的抽取算法,这能有效的从网页中发现和恢复嵌入的结构化数据;最后,将提取出来的信息按照其相关性集合在一起,一般采用检查与核心信息相关的其他信息的相似度来实现信息关联度的要实现对整个互联网的垂直搜索,还有很多困难,比如存储就是目前最大的难关;但是如果把垂直搜索技术用于某个专业领域,那么实现就有可能了,比如视频领域,只要针对视频网站进行抓取、分类、提取、集合,就可以为用户在百垂直搜索技术主要分为两个层次:模板级和网页库级】.的视频进行搜索,对存储和带宽的要求都很大。。垂直搜索技术总体来说,这是一种垂直的对象搜索技术健4怪薄保侵刚庖凰阉骷际踔赶虻氖悄掣鎏囟ǖ牧煊颍例如学术、购物、视频等,用户可以在自己感兴趣的领域内进行搜索6岸互联网上的信息浩如烟海,垂直搜索技术必须事先对所要查找的内容进行搜页;其次,通过一个。分类器”.将所抓取的网页按照其所属的类别进行分类分析万以上的视频中快速找到自己所需要的。目前,
模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对