文档介绍:上海交通大学
硕士学位论文
跨语言信息检索在机器人信息数据库中的应用研究
姓名:郭宇锋
申请学位级别:硕士
专业:情报学
指导教师:黄敏
20060301
上海交通大学硕士学位论文摘要
跨语言信息检索在机器人信息数据库中的应用研究
摘要
信息检索(Information Retrieval,IR)泛指用户从包含各种信息
的文档集中找到所需要的信息或知识的过程。传统的信息检索系统主
要是针对单一语种的文档集实现,一般是使用用户最为熟悉的语种作
为查询语言。随着互联网的全球化发展趋势,用各种语言书写的信息
汇聚在一个集合中,使系统提供对多语种文献进行同时查询的需求变
得越来越迫切,由此而引发了信息检索界对跨语言信息检索的研究。
跨语言信息检索(Cross Language Information Retrieval,CLIR)
即用一种提问语言检索出用另一种语言书写的信息,是一种跨越语言
界限进行检索的问题。在当今信息社会中,跨语言信息检索已成为世
界范围内一个亟待解决的关键问题。的全球信息基本结构造
成针对跨语言信息检索系统的需要愈来愈强烈。因特网上,大约 80%
的网站是英文网站,而将近 40%的因特网使用者不会英文。在这种情
况下,如果用户能够以本国语言输入查询,进行跨语言检索,得出所
需检索的各种语言的文本,将会受益非浅。
上海交通大学建立的机器人信息数据库属 CALIS 项目中的机械
制造及自动化文献数据库中的子库,其内容着重于 1986 年以来国内
外出版的各种中英图书、期刊、会议录、科技报告、专利产品等文献
中有关机器人方面的文献资料、科技成果和产品信息。数据库采用
TRS 信息发布检索系统进行构建,该系统是由易宝北信信息技术有限
公司开发的一个面向文本数据的数据库管理系统。本文的研究正是基
于机器人信息数据库的。
本文旨在对跨语言信息检索的理论进行研究,以专业性很强的机
I
上海交通大学硕士学位论文摘要
器人信息数据库作为一个研究的平台,提出一种适用于专业数据库的
跨语言信息检索模型,并根据所研究的理论模型,建立跨语言检索系
统。系统基于机器人信息数据库建立中英双语语料库,在前端建立双
语词典,实现查询翻译,消除歧义,后端加入反馈机制,以完善双语
语料库。用户的查询通过字典、语料库进行翻译,在 TRS 全文检索
系统的基础上实现对机器人信息数据库的跨语言信息检索。
跨语言信息检索的研究涉及到语言学、情报学、计算机科学等多
门学科知识,是一个综合性强、富有挑战性的研究领域。本文的研究
对于如何在专业领域数据库中构建跨语言信息检索系统具有一定的
借鉴意义。
关键词:跨语言信息检索查询翻译机器人信息数据库
II
上海交通大学硕士学位论文 Abstract
THE RESEARCH ON CROSS-LANGUAGE INFORMATION
RETRIEVAL THEORY AND PRACTICE IN ROBOT INFORMATION
DATABASE
Abstract
Information Retrieval is the process which users find the information they
need from all kinds of data collection. The traditional information
retrieval system is used in data collection with single language which
normally is users’ mother language. With the enrichment work
information and the improvement of the users needs, people are not
satisfied with retrieving in the same kind of language. So Cross Language
Information Retrieval (CLIR) receives peoples more and more concerns.
Cross-language information retrieval (CLIR), where queries and
documents are in different languages, has of late e one of the major
topics within th