文档介绍：万方数据
.∞.刘跃虎,男,年生,教授,博士生导师,主要研究方向为模式识别与计算机视觉、网络媒体蹶髍记口以蜘册脚面髑渖浩碚眩厦磏残浴敫緍拢嗣磏餷油删&砒研如胁煽踨Ⅳ—絠鱝跚耙礶胋簍琎第卷第模式识别与人工智能摘要传统的邻近性检索模型同等地看待所有查询词,不加区分地考虑所有查询词的邻近性,造成“平行概念效应”,—”,狧,】【毋砸秠鷇俊緄琒蛐、中央高校基本科研业务费专项资金项目资助年西安交通大学电子与信息工程学院西安南京大学计算机软件新技术国家重点实验室南京语义相似度对查询词邻近性统计量加权,可进一步推断用户的实际信息需求,,在短查询较多的应用环境下,文中方法可较显著提升传统邻近性检索模型的性能,,语义相似度,查询词邻近性畔⑿枨中图法分类号’附畁木国家自然科学基金项目、国家自然科学基金重点项目、博士后科学基金项目收稿日期:—一;修回日期:一一作者简介乔亚男ㄑ蹲髡,男,年生,博士,讲师,主要研究方向为信息检索、自然语言处理、、,男,年生,教授,博士生导师,主要研究方向为服务组合与分布式计算.【,&.
万方数据
嘲即种类型的词汇统计量,如文档频率蠪唧,言叫懈拍钚в骸璓⋯讹咖引次牡灯德雠雠来度量查询中关键词间的关系如果一个查询包含两量的邻近性检索模型輒蛳完全由这两个词决定,比如查询“娇,.眕对于应用广泛的信息检索模型,如经典的布尔模型、向量空间模型【⒏怕誓P汀。、统计语言模型忙刊等,文档和查询之间相关度计算通常都是基于各文档长度等喁庑┩臣屏炕径际钦攵圆檠心骋个单独的关键词,当查询中的关键词不只一个时,,提出查询词邻近性咖冉商哆,这一概念个查询词,检索系统针对该查询返回两篇文档虰,牡抵姓饬礁霾檠示嗬牒茉抖鳥文档很近,从常理推断,⒓,这种指标就称为统计量.’,提出一个基于个邻近性统计量的更完整的邻近性检索模型,他的结果在很多后续的研究成果中被成功应用【。信息检索模型中引入飧霾问捎行嵘息检索模型的性能,ü低呈笛椋出除“最小距离”等少量参数可有效提升检索性能以外,大部分臣屏慷约焖餍阅艿母纳贫际有限,部分参数甚至还起反作用,,但并没有试图做出解释,,提出“,