文档介绍:武汉理工大学
硕士学位论文
基于双语翻译的个性化搜索引擎的研究与设计
姓名:段建国
申请学位级别:硕士
专业:计算机应用技术
指导教师:刘东飞
20090401
摘要更新方式,重点从用户需求扩展、特征选择,以及文本聚类分析三个方面来进行韵低衬?槭迪值南喙丶际踅辛讼喙氐姆治鲇胙芯浚缤缗莱曰谒锓氲母鲂曰阉饕娼辛讼低成杓朴胧迪郑治隽四本文的研究与探索将为进一步研究基于大规模语料库和双语页面搜索的辅助翻译系统在用户接口个性化性能优化上,提供了一个良好的理论平台和开端。关键字:双语翻译;个性化查询;搜索引擎;已经成为人们获取信息资源和进行信息交流的一个重要途径,随着畔⒌娜找嬖龀ぃO朐谛畔⒘亢迫缪毯5幕チM纤阉麂雷约盒枰5男息,成为了一项极具挑战的工作。虽然传统的搜索引擎的出现极大地提高了人们对网络信息的检索速度,在一定程度上解决了信息资源的定位问题,但还是无法满足人们日益增长的对信息服务个性化的需求,特别是不能对网络上现有的中英双语翻译的对照页面信息进行充分的利用。因此,个性化搜索引擎与双语辅助翻译的结合成为了当前一个重要的研究课题。本文针对现有的基于大规模网络语料库和双语网页搜索的辅助翻译系统在用户接口个性化方面的缺陷,利用显式和隐式两种方式获取用户兴趣爱好信息,对用户需求进行扩展,达到因时因人因地的不同,得到用户真正想得到的查询结果,更深层次上实现双语翻译搜索引擎的查全率、查准率。本文的主要工作如下:愿鲂曰阉饕娴暮濉⒒纠嘈汀⑻逑导芄埂⒐ぷ髁鞒桃约澳壳存在的不足进行简要综述。没巳じ鲂曰畔⒌幕袢 7治鲇没巳じ鲂曰畔⒌氖占椒ê分析,实现主动推荐和隐式发掘的一种个性化服务。的改进、分词处理等。型中各模块的功能与实现技术。
..,誻膖.:.,’甧,甤,.,Ⅱ.
签名魈坦新躲啦嗍芈’学位论文使用授权书独创性声明学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武公众提供信息服务。C艿穆畚脑诮饷芎笥ψ袷卮斯娑
第绪论课题研究的背景越广泛,根据中国互联网络信息中心月发表的统计资料间和空间的界限来共享大量的信息资源。万维网其自身作为一个庞大的分布式异关报告得知壳爸泄呈亿,⒆.,而且中国网民规模继续呈和生活中,随着时间的推移,将会有更多的网络用户体会到网络带给他们的便利,到所需信息已经成为困扰人们的一大难题【。随着传统搜索引擎的出现,例如琯瑂等,辅助了人们对畔⒌募焖鳎韭懔巳嗣且定的需要,使得用户获取自己所需的信息变得相对容易些。根据刂乖需信息的重要工具,是互联网中的基础应用。,高于电子信箱服务。检索,返回的结果就是相同的,它并不考虑不同用户的信息偏好和不同兴趣,使得每个用户面对同样的信息空间。比如,医生想了解关于“生物学病毒’’方面的随着因特网难杆俜⒄褂肫占埃缫逊⒄钩晌N颐蔷谩⑸缁帷文化、教育以及娱乐等几乎各个方面的重要组成部分。同时,网络的应用也越来显示壳芭琶笆坏耐缬τ檬牵和缫衾帧⑼缧挛拧⒓词蓖ㄐ拧⑼视频、搜索引擎、电子邮件、网络游戏、博客/个人空间、论坛/屯绻何铩所以说,万维网包含了从技术资料、商业信息、通信应用到新闻报道、视频音频、娱乐信息等多种类别和形式的信息,为用户提供了一个极具价值的信息源。因为它具有直观、方便的使用方式和丰富的表达能力,所以鸾コ晌H嗣腔袢信息资源的一个非常重要途径,给人们带来了巨大的便利,使得人们可以跨越时构超文本文档库,从年发展至今,其信息容量呈爆炸性的增长【。根据有的增长速度非常迅猛。其中静态页面数量己达到.,动态页面数已经达到了.,而且还将在相当长的一段时间内快速地增长。报告还显示,,网民规模跃居世界第一位。但是现持续快速发展的趋势。可见,互联网基础应用已经日益深入人们的工作、生产网络也将变得越来越重要。随着畔⒌谋ㄐ栽龀ぃ绾慰焖佟⒆既返卮雍棋ǖ男畔⒆试粗醒罢年碌姆⒉嫉牡伪ǜ嫱臣票砻鳎阉饕媸峭裨诨チM谢袢∷传统的搜索引擎由于其通用性,目前仍