1 / 70
文档名称:

基于潜在语义分析的智能搜索技术研究.pdf

格式:pdf   大小:1,785KB   页数:70页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的智能搜索技术研究.pdf

上传人:陈潇睡不醒 2021/10/31 文件大小:1.74 MB

下载得到文件列表

基于潜在语义分析的智能搜索技术研究.pdf

文档介绍

文档介绍:摘 要
近年来互联网飞速发展,已经发展成为包含多种信息资源、站点遍布全
球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源。搜索引
擎为用户提供了友好的检索接口,能帮助人们从浩瀚的数据中抽取出对用户
有用的信息,能极大地节省用户的查询时间。
互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的
指数级增长给搜索引擎技术带来了巨大的挑战,人们越来越难以快速准确地
从网上搜索到相关信息。由于自然语言中多词同义、一词多义等不确定性因
素存在,相同概念可以有多种不同的表述方式。传统的基于关键词字符匹配
的搜索引擎中,参与匹配的只有外在的表现形式,而非它们所表达的全部概
念,用户很难简单地用关键词或关键词串来真实地表达真正需要查询的内容。
把搜索引擎技术从关键词匹配的层面提高到语义的层面,从语义意义上智能
地认知和处理用户的查询请求成为当前搜索引擎技术的研究热点。
本文从智能搜索建模的角度出发结合潜在语义分析技术,研究了搜索引
擎中文档处理、查询处理以及最后的信息匹配处理。在此基础上,对潜在语
义空间中权值从概率角度进行了分析与改进,使其更能体现出文档间、文档
与词汇间的语义关系;对用户查询进行语义扩展,补充了用户输入信息不足
或与索引词汇不匹配的问题;对用户搜索结果不理想进行调整,提出二次搜
索的策略改善搜索结果使其更贴近用户要求。最后文本设计并实现了基于潜
在语义分析的智能搜索系统验证了算法可以在一定程度上搜索引擎对语义的
理解,并获得较高的准确率与查准率。

关键词:搜索引擎;潜在语义分析;奇异值分解;查询扩展
Abstract
In recent years, the Internet is growing fast and it has already been a great
dynamic information service network full of all kinds of information around the
world, which provides users with a valuable source of information. Search
engines offer us user-friendly search interfaces that can help people acquire useful
information from huge data, which can save a lot of time for user’s query.
The vast majority of information on the Internet is saved in the form of the
text. The exponential growth of text message has brought great challenges to the
search engine technology. Due to multi-word synonyms, polysemy and other
uncertainties that exist in natural language, the same concept can have many
different patterns of expression. The traditional search engines based on keywords
matching simply use keywords or keyword strings rather than the genuine concept
which the users want to express. Thus, search engines need to develop into
semantic level from keywords matching. Recognizing and dealing user’ query
intelligently in search engine technology have come into focus.
This paper gives research on document processing, query processing and the
final match of information processing in search engines combined latent se