文档介绍:摘要
摘要
问答系统是允许用户输入一个自然语言形式的提问,通过检索,
得到能够回答该问句的比较简短而准确的一个句子、摘要或者一个词。文
本文档的问答系统研究已经取得了一定的进展。随着网络技术的发展,除
了文本,网络上其他多媒体信息变得越来越重要,这对问答系统既是机遇
也是一种挑战。视频是我们获捕外界信息的最有效媒体之一,因此本论文
主要对新闻视频进行问答系统研究。在视频的各种特征中,脚本是最重要
的且是比较容易得到的,况且,视频问答系统输入的是一个纯文本类型的
问句,所以系统框架中主要运用的是通过自动语音识另而得到的脚本
特征。
本论文提出了一种中文视频问答系统的框架。整个系统包括瞿?椋
视频分割、语音识别、问句分类、脚本检索、答案抽取和最后的视频输出。
脚本中包含了大量的语音识别错误,我们人为地对部分错误进行了纠错。
在问句分类模块,本论文利用知网来提高问句分类的准确率。视
频是为了得到问句的最准确的视频答案,而不仅仅是一个很长的故事单
元,所以对检索得到的故事单元需要进行更详细地答案抽取。本论文根据
关键词密度、问句分类时的答案类型等为输出的句子打分,分数最高的句
子对应的视频作为输出。
本论文的重点研究在于:谖示浞掷嘀兄M脑擞茫把文本问答
系统扩展到中文视频中,这对问答系统研究是一个突破。对中文
闻视频的实验表明,我们提出的方法是可行的。
关键词问答系统;视频分割;信息检索;自然语言处理;知网
燕山大学工学硕士学位论文
,琣
.
琁
瑆
甐
甇
甀,
.
簐
.
, .
.
琣,
.
,
;
瓻
Ⅱ
籌籋
; 、
第滦髀
第滦髀
研究背景
随着互联网的普及,互联网上的信息越来越丰富,现在人们能够通过搜
索引擎方便的得到自己想要的各种信息。比较有名的搜索引擎有、
、取N蘼勰姆矫娴哪谌荩庑┧阉饕婺芄话镏嗣强焖俚卣
到相关的网页。用户只需输入一些关键词,它们马上就会搜索出相关的网
页。
但是这些传统的搜索引擎存在很多不足的地方,其中主要有三个方面:
一是相关性信息太多。传统的搜索引擎返回的相关网页成千上万,用户很
难快速准确地定位到所需的信息。二是这些传统的搜索引擎都是以关键词
的逻辑组合来表达检索需求,然而人们的检索需求往往是非常复杂而特殊
的,是无法以几个关键词的简单组合来表达的,这样用户很难将自己的检
索意图表达清楚,搜索引擎自然也就没办法找出令用户满意的答案了。三
是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表
层,而没有触及语义,因此检索效果很难进一步提高。
为了克服传统搜索引擎的弊端,国外一些有影响的研究机构和大公司
正在积极探索新的检索技术,一种更高效、更人性化的搜索引擎——问答
系统,简称
与文本检索系统相比,问答系统【υ市碛没б宰匀挥镅蕴嵛市问较蛳
统请求,系统也能提供给用户精确、简洁的答案。因此,节省了用户从
大量文本中寻找答案的时间,可以说,问答系统能够提供用户真正有用、
精确的信息,它将是下一代的搜索引擎的理想选择之一。
随着互联网的发展,各种信息呈爆炸式增长,除了传统的文本信息,
图像、声音和视频越来越成为重要的信息。视频媒体类型在丰富人们的生
活、教育、娱乐方面起着越来越突出的作用。视频是包含内容很丰富的一
问答系统的研究进展新的检索方式——视频问答系统。视频问答系统允许用户输入一个简短的种媒体,能提供比文本、声音和图像更为丰富和形象生动的信息。新闻是视频的一种,是人们了解社会的重要途径,与人们的生活密切相关。现在新闻节目越来越多,信息量也非常的大。因此让人们较容易地在大量的新闻节目中找到自己感兴趣的相关内容便成为一种重要的需要,由此也出现了基于多媒体的信息检索【埃⑷〉昧私虾玫难芯砍晒J悠的谌萦镆宸析和视频内容检索是目前国际国内多媒体研究领域最为活跃和快速发展的课题,计算学、网络以及广播技术的结合更加促进了多媒体信息的高速发展,尤其是视频媒体技术。从实际应用来说,一方面随着视频技术和视频设备的不断普及,视频资料缧挛攀悠越来越多,已成为人们政治、经济、文化等日常生活不可缺少的一部分。人们迫切需要一种如同文本检索一样的方式对视频内容进行检索。另一方面大量的视频资料经常需要从海量的新闻视频资料库中提取等等,但长期以来一直没有解决好新闻视频语义检索问题。从理论研究来说,视频内容语义结构分析不