1 / 3
文档名称:

基于概率潜在语义分析的中文信息检索.pdf.pdf

格式:pdf   页数:3页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于概率潜在语义分析的中文信息检索.pdf.pdf

上传人:jiaxidong_02 2016/1/16 文件大小:0 KB

下载得到文件列表

基于概率潜在语义分析的中文信息检索.pdf.pdf

相关文档

文档介绍

文档介绍:·文章编号:(2008):A中图分类号:TP18基于概率潜在语义分析的中文信息检索罗景,涂新辉(武汉科技大学计算机学院,武汉430065)摘耍:传统的信息检索模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象,对召回率和准确率有不利的影响。概率潜在语义模型使用统计的方法建立“文档一潜在语义一词”之间概率分布关系并利用这种关系进行检索。该文将概率潜在语义模型用于中文信息检索,实验结果表明,概率潜在语义模型相对于传统的向量空间模型能够显著地提高检索的平均精度。关健词:概率潜在语义分析;中文信息检索;索引技术;-hui(puterScience,WuhanUniversityofScienceandTechnology,Wuhan430065)[Abstract]Intraditionalinformationretrievalmodels,,therearemanysynonymsandpolysernyinnaturallanguage,.[Keywords]probabilisticlatentsemanticanalysis;Chineseinformationretrieval;indexstrategies;keyphraseextractionl概述随着互联网络和计算机的不断普及,通过网络共享的信息资源以接近指数级的速度递增,其中大部分为文本信息。为了从海量文本数据中查找所需要的信息,一个优秀的信息检索系统是必不可少的。传统的信息检索模型可归为3类:布尔模型,向量空间模型和概率模型。它们分别把文本和查询表示为词的集合,尽管使用了不同的方法,但本质上均为某种形式的词的匹配,而没有进一步做语义上的分析J。自然语言中存在大量的同义词、多义词,分别对传统检索模型的召回率和准