文档介绍:摘要目前互联网领域主要的搜索引擎服务商如、百度、龋S没峁┑都是横向的海量信息搜索。这些通用搜索引擎在满足信息全面搜索的同时,却很难兼顾搜索的准确度与相关度的质量,而且存在网页覆盖率低、索引不及时等缺点,尤其对于信息需求相对集中、分类更加详细的行业用户缺乏导向。垂直搜索引擎作为搜索引擎技术发展的一个分支方向,通过对领域内信息的全面搜集、再组织整理,将会提供更专业化、个性化的行业信息服务,能够满足用户对专业领域信息的搜索需求。本文的研究工作主要分为两个部分,第一部分主要研究了垂直搜索引擎中的网络蜘蛛技术和结构化信息抽取技术。在网络蜘蛛的研究中,重点解决了主题目标描述、对乃阉鞑呗院椭魈庀喙囟扰卸ㄎ侍狻F渲型ü煊蜃ḿ已《ǔ跏贾肿覷,从主题网页库中自动提取特征关键词并辅助人工筛选的方式生成主题特征向量;在网络蜘蛛搜索过程中,采用最佳优先的搜索策略以保证高效地抓取主题资源;通过向量空间模型计算网页与主题特征向量之间的相似度,并考虑了关键词的位置权重。在畔⒊取技术的研究中,对比分析了现有的畔⒊槿》椒ǎ捎昧嘶谡虮泶锸降耐页结构化信息抽取方法。第二部分对搜索结果聚类进行了研究,通过分析现有聚类方法的不足及搜索结果聚类的特点,提出了一种适合于搜索结果动态聚类的新的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,采取比较子串和父串短语类代表的文档数量策略有效地解决了基于二进制方法合并短语类后的类别描述问题,并利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。实验结果表明:与传统的文档聚类算法相比,基于后缀树的算法在牡稻劾嗟木ǘ群托史矫婢哂薪锨康挠旁叫浴最后本文设计并实现了一个面向专利领域的垂直搜索系统,其中以开源框架实现了索引和搜索功能,采用基于词典的正向最大匹配算法实现了中文切词,并运用信息可视化技术对搜索聚类结果进行展示。关键词:垂直搜索;网络蜘蛛;结构化信息抽取;后缀树聚类大连理工大学硕士学位论文
知识水坝为您整理
.,.‘,,,琘瓵瓵猳瓻.,瓼,,.甀瓺甌瓵’.——
知识水坝为您整理
篤甅;大连理工大学硕士学位论文,..;;.甌.—
:┰隆K咳大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:作者签名:日期:..
导师签名:—日期:玉产年一月堑自短盛函童杰盟垂羞毖盈霾笠宾毽至羞江日期:丝丝年—旦月兰互日大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。学位论文题目:作者签名:大连理工大学硕士研究生学位论文.
髀研究背景与意义随着难该头⒄购蚖信息的增加,从海量级的网络信息资源中快速准确地获取信息就显得越来越困难,也变得越来越重要。搜索引擎就是在这样的背景下出现的技术,它整合了互联网上的网页资源,并提供信息导航和信息查询服务,在很大程度上解决了人们在互联网上查找和定位信息的瓶颈问题。但是,目前的通用搜索引擎在使用中也面临着许多问题:哺锹实停和缧畔⒆试闯始负渭妒卦龀ぃ阉饕嬖谒鸭缧畔⒎矫嬖对赶不上网络信息的增长速度。又由于写罅康亩趁嫖薹ḿ焖鳎ジ鏊阉饕的覆盖率一般都低于%,很难索引所有的试础毙圆睿夯チM写罅啃畔⒌拇婊钇谠谒醵蹋獾贾滤阉饕娴氖毙院苣驯峁蛔既罚核阉饕娣祷氐牟檠峁呛A康模杏玫男畔⒅皇瞧渲械男部分,可谓“冰山一角”,而且搜索结果中存在着大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内容,出现所谓的“认知过载”【俊椎贾旅院剑耗壳暗乃阉饕娑际且G笥没а细癜凑账娑ǖ母袷绞淙氩檠剩但种种限制使用户不知道如何确切地表达自己的信息需求,即所谓的‘‘‘迷航】,表达的困难将导致检索结果的不理想。谒腊澹合钟械乃阉饕娑嗖捎霉丶实幕凳狡ヅ洌挥卸杂没У氖淙虢语义理解;这种方式的固有缺点是参与匹配的只有字符的外在表现形式,而非它们所表达的概念。因此,经常出现答非所问、检索不全的结果。面对通用搜索引擎发展所遇到的困难和人们对信息的新需求,人们开始呼唤更有针对性的搜索引擎的出现。垂直搜索引擎正是针对通用搜索引擎的信息量大