文档介绍:武汉理工大学
硕士学位论文
面向OA系统的个性化搜索引擎设计与实现
姓名:全俊林
申请学位级别:硕士
专业:计算机应用技术
指导教师:杨开英
20070401
中文捅要关键词:搜索引擎,中文分词,菘饫┱展和伸缩。通过虷结合,对数据库提供事务级索引,同时能在普通办公自动化低持校孀判畔⒘康娜找嬖多和爆炸式扩展,对于数据字段的普通模糊匹配搜索查询己远远不能满足不同的用户需求。由于普通的系统搜索查询一般都是根据用户需求硬质编码在具体模块中,与具体模块耦合较强,不易于扩展、维护和管理。同时搜索数据库和搜索索引模块接口不能统一,使得开发人员使用不同接口难度增大。本文在深入分析索引生成、中文分词、索引检索等搜索引擎核心技术的基础上,设计并实现了系统个性化搜索引擎包。该搜索引擎包的目标是建立一个独立于具体模块、与数据字段相关性较弱、可管理维护配置的个性化搜索引擎,支持中文分词、全文检索等搜索引擎特征,同时对全文检索和数据库检索建立统一的查询接口和规则,使得在全文检索和数据库检索中容易切换。该搜索引擎包构建于蚅希低呈菘馑阉骱退引搜索统一结合在一起,统一了查询接口并将系统搜索抽象成可管理和维护的外部独立包,以此减少系统业务模块之间的耦合,减少重复编码,提高系统可重构性:同时实现了全文检索系统的中文分词,优化了中文分词的词库结构。系统通过和闹С郑峁┒允菘獠檠退饕阉鞯娜萜管理,通过对成涞腏韵蟮纳魇脚渲茫迪至烁菖渲美次护索引字段和索引表,并可配置管理分词和查询分析器,可以灵活实现系统的扩和数据库同步更新索引,提高构建索引的速度和索引的可维护性。系统实现了将系统各层查询逻辑分离,通过对数据传输对象的设置,在底层系统生成数据库查询语句和索引查询语句,延迟查询语句的生成时间,便于各层之问进行协作。系统可以极大改善系统的开发时间和开发效率,进一步降低系统的耦合性,减少系统维护和管理带来的开销,使得开发重心迸一步转移到业务逻辑上,同时又能增强普通数据字段模糊匹配带来功能不足的困扰,通过个性化配置,可以使得搜索引擎满足不同用户功能需求,达到简化系统开发和增强系统功能的目的。
琲琲,,,痠琧,,.甀琲’琲’籨瑃琲,.,.
珻,,.簊
签名:越盐日期:塑:签名:砼像盐导师签名:丝垒鍪期:丝簊:关于论文使用授权的说明独创性声明成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影日⑺跤』蚱渌粗剖侄伪4媛畚摹C艿穆畚脑诮饷芎笥ψ袷卮斯娑
、并能进行查询重新获取数据的信息检索系统,一般按应用环境的不同分为网络搜索引擎和系统中的搜索引擎。两者的实现方式大同小异,都包含索引和查询两大功能。网络搜索引擎针对网络上复杂的海量数据和资源进行信息采集、信息解析和提取、并建立和更新索引数据库,提供查询接口,根据关键词用户能快速找到所需要的资源和信息。信息收集部分通过俗称“网络蜘蛛”的程序去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面的收集信息。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,能索引一个基于唇拥腤页面,启动一个新的线程跟随每个新的唇樱饕桓鲂碌腢起点。当然,在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。各个搜索引擎技术公司在算法上所采用的可能不尽相同,但目的都是快速浏览趁嬉约昂秃笮滔嗯浜稀信息提取和索引库的建立部分关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速。对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链接分析相结合的方法进行自动分类,并且给出相关度评价,以便能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。查询接口部分由检索器根据用户输入的查询关键字,在索引库中快速检索出文档,进行文档与查询的相关性计算,对将要输出的结果进行排序,并将查询结果返回给用户系统搜索引擎不同于网络搜索引擎去采取网络海量数