1 / 61
文档名称:

基于GB18030的多语种全文检索系统设计与实现.pdf

格式:pdf   页数:61
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于GB18030的多语种全文检索系统设计与实现.pdf

上传人:山吉 2014/2/13 文件大小:0 KB

下载得到文件列表

基于GB18030的多语种全文检索系统设计与实现.pdf

文档介绍

文档介绍:者:榧堆芯可硕士学位论文摘要南京邮电大学学科、专业:工学计算机软件与理论研究方向:数据仓库与决策支持系统指导教师塑鏖目:基于亩嘤镏秩募焖飨低成杓朴胧迪刘栋主题词:多语种全文检索倒排索引作题英文题日:猯··:
中文摘要关键词:多语种,全文检索,倒排索引,随着信息社会的不断发展,计算机网络应用的不断深入,互联网已经成为人类获取信息的最重要途径之一。在信息爆炸时代,人们面对的烦恼不再是信息资源的贫乏而是资源过剩甚至于泛滥。如何在信息海洋中找到准确有用的信息已不是一个新的课题。全文检索技术因此应运而生。全文检索技术是将海量的非结构化数据通过建立索引,检索的方式来迅速搜索定位要查找的信息。信息的内涵比较大,这早特指计算机中的文本信息。即文字语言表达的信息。当提及到多语种或者多文种文字信息时,人们不禁会想到实现世界上所有文字的统一编码H欢晡夜恐菩员曜糋推行之后,理论上要实现多语种非荒苡玫穆鄱暇痛送品1疚亩远嘤镏秩募焖髦兴婕暗墓键技术包括字符编码、汉语分词、索引架构、检索算法等进行了探讨和研究。为了能够支持我国独立研制的编码字符集标准,实现在该领域计算机处理的自主权,本文提出了利用1嗦牖±瓷杓朴胧迪秩募焖飨低场J沟枚语种信息处理不再依赖于С治夜灾髦J恫ǎ彩沟梦夜形男息处理技术更上一个台阶。本文主要分以下几部分内容:┱故迪只贕的全文检索组件技术。:研究生学位论交,
:可宦畚瑃甀瑆.—,.,,.,琺——,痶
研究生签名:牡日期::立役唬坏际η研究生签名:玉痢欤际η南京邮电大学学位论文独创性声明南京邮电大学学位论文使用授权声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材明确的说明并表示了谢意。南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一ǹ论文的全部或部分内容。论文的公布ǹ授权工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布南京邮电大学研究生部办理。
第一章绪论研究背景与意义中外全文检索的发展历史美国匹兹堡大学卫生法律中心建成的法律情报检索系纠。年,美国米德公司面向公随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,信息高速公路的基础建设使得人们在获取信息方面的方式有所改变。二十一世纪的人类不再仅仅依赖于报纸、广播和电视来传播和获取信息。互联网越来越成为人们相互交流和传播信息知识的重力。网络信息的激增一方面增加了像全文检索这样对于如何有效获取有价值信息的迫切需要平台。在互联网上,电子文档的信息每天都在急剧的增加,通过网络人们可以很方便地共享巨大的信息资源,但是网络资源的快速膨胀,也带了另一个问题。那就是在面对海量信息的时候,人们如何获取对自身有用的信息。传统的方法是依靠人工的方法检索文章,对信息进行筛选。但是,这种人工检索方法存在许多的弊端:耗费大量的人力、物力和精求。另一方面又为人类获取详尽具体的信息准备了充分的资源。全文检索技术正越发显示出优越性,全文检索技术及其相关技术的研究是当前一项自订沿技术热点。据沃泄チM绶⒄棺纯鐾臣票ǜ年路⒉,中国网民总人数已达到Γ恕T谕窕袢⌒畔⒌耐揪吨校ü缁袢⌒畔⒌恼%。而在网民经常使用的网络服务/功能这一项调查中,>第一位⋯。这也证明了网络检索是网民迫切需要的最重要的功能之一。全文检索技术可以帮助人们更有效、快速、准确地获取知识。功能强大,效率高的全文检索是未来互联网必然需求之一。全文检索技术最早出现于世纪年代。世界上出现的第一个全文检索是年,众查询的收录有大量以法律、新闻、商业经济、政府出版物等内容为主的大型全文数据库耐度胧褂茫曛咀湃募焖髁煊虻牡兰甏岳矗⑽娜募焖鞣展得较为迅速和完善,早已成为国外文字型信息检索的主流。年代以前,搜索技术仅限于特定的软件系统,如数据库。年,华盛顿大学的学生开发了,成为互第南京邮人学颂篲究生学位论文
全文检索发展现状和趋势前我国从事全文检索软件开发的专业科研单位已经能够提供相当成熟的解决方案和产品。内常用的搜索引擎主要有中国、百度、中搜等。中文全文检索的实现在基本原理上和英文差不多,但还是有很多技术上的差别和