1 / 72
文档名称:

基于领域本体的文本过滤模型DOTFM的设计和实现.pdf

格式:pdf   页数:72
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于领域本体的文本过滤模型DOTFM的设计和实现.pdf

上传人:durian 2014/4/22 文件大小:0 KB

下载得到文件列表

基于领域本体的文本过滤模型DOTFM的设计和实现.pdf

文档介绍

文档介绍:上海大学
硕士学位论文
基于领域本体的文本过滤模型DOTFM的设计和实现
姓名:李嘉俊
申请学位级别:硕士
专业:计算机应用技术
指导教师:吴耿锋
20071201
摘要念关联度两个因素;提出了局部型/全局型相似度/琇关键词:领域本体,概念权值,概念关联度,文本向量,文本过滤广泛,用户对过滤的要求也越来越高。为满足用户需求,本文将领域本体引入到文本过滤当中,利用领域本体实现对中文文本的过滤。在经济、社会和学术方面的意义:分析了文本过滤任务和常用技术,描述文语料集来量化概念在领域中的重要程度;在过滤阶段,提出概念关联度,ǖヒ恍问降奈谋鞠蛄扛谋湮2捎镁卣蠛拖蛄苛街中问降奈谋的性能进行了比较,实验结果表明前文本过滤是从动态的文档流中,检索出符合用户需求文本的一种技术。随着文本过滤技术在电子邮件、消息订阅、信息安全等领域的应用变得越加本文首先介绍了国内外信息过滤的研究现状,阐明文本过滤的理论及其本过滤的性能评价方法,解释本体的基本概念。接着提出了一种基于领域本体的文本过滤模型,该模型主要由学习阶段和过滤阶段组成。在学习阶段,提出概念权值,利用领域本体和学习,利用领域本体的层次结构确定领域中概念间的亲密程度。论文提出了局部型/全局型文本向量/向量,同时考虑概念重要程度和概念关联度两个因素。论文还提出了局部型/全局型用户模板/采用矩阵和向量两种形式表示获取的用户需求,同时考虑概念重要程度和概计算和过滤,变单一匹配为综合匹配。论文最后实现了南低吃虳⒔獶与基于关键字的文本过滤模型者综合性能明显优于/./上海大学硕士学位论文/
乇龋...喂.,.殆茫仁/,瑃.,,:,,簃/上海大学硕士学位论文’瑂,瑃珻,/產.,
,,.:簃,疓,上海大学硕士学位论文..珻琓’
签名:殍嘉侵日期:原创性声明本论文使用授权说明期:呈翌翌是墨本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。C艿穆畚脑诮饷芎笥ψ袷卮斯娑上海大学硕士学位论文
第一章绪论论文选题背景网络的应用与普及从根本上改变了人们传统的获取信息的方式,在用户通过确地找到各自所需的资源,排除垃圾信息的干扰,己成为当今信息社会尤为关注信息检索技术能根据用户的查询返回合适的信息,它在一定程度上解决了信息过时返回的结果成千上万、良莠不齐,使得用户在寻找自己喜欢的信息时技术。人们普遍认为信息过滤是解决“信息过载”问题的必要手段。也表述为用户兴趣特征,把两者比较进行过滤,并将过滤的结果发布给用户,用户的评价或使用情况则反馈回去以修改用户兴趣特征或过滤规则。与搜索引擎不网络方便快捷地利用海量的共享资源的同时,“信息爆炸’’、“信息过载”、“信息垃圾”等诸多问题也随着网络信息量的激增而日趋严重。网络的便利同时也是一把双刃剑,一方面使得人们很方便地共享和获取网络上的资源,另一方面,网络信息也会鱼目混杂,包括了大量无用的信息。因此,如何在庞大的网络中迅速准的问题。以搜索引擎为代表的信息检索技术是帮助人们找到合适信息的最直接手段。载的问题,因此引起了广泛的兴趣。然而仅通过搜索引擎并不能完全满足用户对信息的需要。随着人们对信息检索的应用,发现信息检索里面出现了许多的问题谑褂盟阉饕媸保灰J褂玫墓丶氏嗤玫降慕峁拖嗤并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同有如大海捞针;缧畔⑹嵌浠模没背9匦恼庵直浠6谒阉饕嬷校户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间。在信息检索的基础上,逐步的出现了信息过滤的信息过滤的基本原理是将信息表示成一定的格式,并且将用户对信息的需求上海大学硕士学位论文【浚
国内外信息过滤技术研究现状同,信息过滤可满足用户长期的信息需求,并能屏蔽有害信息、主动发布用户感兴趣的信息,因此近年来信息过滤引起了越来越多的研究者关注,信息过滤为核心技术的个性化服务系统也在电子商务等商业系统中得到了广泛的应用。的多义性和同义性,这种方法存在着固有的局限性。因此,本文提出的过滤思想根据某个阈值,完成过滤。本论文是作者在参加“国家特种产品信息分析处理系统钅项目编号信息过滤就是根据用户的信息需求,在动态的信息流中,搜索用户感兴趣的文献【恐赋觯源闘岢隽恕吧桃抵悄芑的设想以后,国随着因特网的迅速发展,信息过滤以及相关技术取得了长足的进展,成为信息产业新的增长点。最早的信息过滤研究是从年开始的。当时,美国新泽西州常用的过滤技术是采用关