文档介绍:大连海事大学
硕士学位论文
基于概念格的文本过滤系统的设计与实现
姓名:邵建双
申请学位级别:硕士
专业:计算机科学与技术(计算机软件与理论)
指导教师:李冠宇
20100601
摘要文本过滤是针对当今用户在互联网中获取所需信息时遇到的信息过载、资源迷航等困难提出来的。传统的文本过滤的研究以关键词检索为主导,忽略了关键词的语义以及关键词之间的联系,成为制约文本过滤进一步发展的瓶颈。因此,将新的理论引入文本过滤成为势在必行的手段。概念格理论作为一种成熟的理论,具有坚实的数学基础,是一种良好的数据分析工具,越来越受到信息处理研究领域的关注。为了解决信息检索中存在的语义瓶颈问题,本文将概念格理论与传统的文本过滤相结合,运用形式背景对待过滤文本及其领域特征词进行组织,并生成相应的概念格,,将文本与用户信息需求之间的匹配转化为概念格中节点与用户信息需求之间的匹配,实现文本的过滤。同时衡量概念之间的语义关系,采用领域本体对领域特征词与用户兴趣特征词进行相似度计算,提高了文本过滤的准确性。为达到上述目的,本文提出了一种基于概念格的文本过滤模型,制定了相关的概念格渐进式构建算法以及基于领域本体的概念相似度计算方法,,本文利用提供的生物医学本体,针对提供的鲇没畔⑿枨螅訲使用的锪峡饨泄恕6员仁验结果表明,本文设计的文本过滤系统在查全率和查准率方面优于传统的基于关键字的文本过滤系统。关键词:概念格;文本过滤;本体;概念相似度中文摘要
:蕊噬緁遖蜘黑叩鯿吣雛·狙闽臢二刚烈‘.号騦究翌竺竺二竺既∞海篴о鑕锄。哪警:,『『~跳,‘:∞咖∞锄。砮印幽他纭4舯瓵·酉弘毒雝。韍。舭血,萵阨籲乙砒·コ閛,砌嘶删1眦锄琣觚酬陀齮蟆叫锄踟。。~斌铘佗订恕句錸觚搠餿觚印鷗“謉“锄嬲。齞。。舀砌胻巧廿.,畂。印琣R瞖瞖甂瑆鏱琲,,瑂。。双,玎,,。.箩骳·上..’,
叠丛论文作者签名:译姒导师签名:夕专翘芗日期:文瓿г大连海事大学学位论文原创性声明和使用授权说明密口在——年解密后适用本授权书。原创性声明撰写成硕士学位论文基王拯垒整的塞奎过选丕统的逡过皇实现::。除论文中已学位论文版权使用授权书本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》泄跗诳光盘版缱釉又旧、《中国学位论文全文数据库》泄蒲Ъ际跣畔⒀芯克等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保不保密口朐谝陨戏娇蚰诖颉獭
第滦髀研究背景上的数据量爆炸般增长的同时,人们通过袢⌒枰5男畔⒁裁媪俸艽蟮牟当今社会,已经深深融入我们的生活。越来越多的人通过网络获取所需的各类信息。人们利用迪中畔⒌慕涣鳎谡飧龉讨校琁已经成为我们生活中最大的信息交流平台。上的信息更新非常快,每天都有大量信息涌入这个平台。在便,很容易迷失在错综复杂的网络信息中。如何更迅速、更准确、更有效地从中找出自己感兴趣的信息成为人们对囊桓鲂碌囊G蟆同时,由于目7判裕行畔⒍际窃谌鄙偃宋<喽胶图际蹩刂频那况下被添加到网络中,使得网络中涌现了大量的垃圾信息、非法信息和有害信息,这三类信息在占用大量网络流量的同时,也极大的污染了网络环境。因此,尽快净化网络内容,给人们营造一个良好的上网环境成为当前值得研究的另一个课题。在解决用户信息获取的需求方面,发展较早的是信息检索技术K叫畔⒓焖鳎窍冉J缎畔⒔杏行蚧笤俳屑焖鞑檎业墓程。用户在对有序化知识信息的查找过程是通过一次性提交若干个描述信息需求的查询关键词来实现的,这样反映的用户信息需求有限,通过信息检索得到的结果无法满足用户的信息需求,网络信息过滤技术作为一种更加有效的手段应运而生。信息过滤歉萦没峁┑男枨竺枋觯运用一定的技术手段,从动态的信息流中将满足用户兴趣的信息挑选出来。因此,信息过滤不仅能帮助人们获得有用的信息,也可以将对用户无用甚至有害的信息滤除在外,对于网络的健康发展有