1 / 62
文档名称:

文本分类在学科导航中的应用研究(可复制论文).pdf

格式:pdf   页数:62
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文本分类在学科导航中的应用研究(可复制论文).pdf

上传人:mkt365 2013/11/6 文件大小:0 KB

下载得到文件列表

文本分类在学科导航中的应用研究(可复制论文).pdf

文档介绍

文档介绍:要摘际醯难杆俜⒄沟贾峦旧系奈牡敌畔⒊芍甘对龀ぃ没老残息丰富的同时也为信息的无序和冗余所烦恼。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。建设网络资源学科导航系统是高校图书馆数字化信息服务的重要功能之一,也是其有效组织和利用网络信息的手段之一。随着网络信息和网页数量的增加,人工分类成了建立学科导航的主要瓶颈,把网页文本分类技术应用于学科导航建设,将是解决这个问题的主要手段。本文针对学科导航建设中的信息内容自动分类问题进行了研究,主要研究内容有:介绍了文本分类的研究现状和学科导航的发展,并研究了文本分类的基本概念、相关技术及文本分类应用于学科导航的可行性和带来的影响。介绍了文本表示技术及步骤,给出了一种改进的基于最大匹配原则的分词算法,并将其用于地质工程学科导航的文本表示中,这种改进算法保留了最大匹配分词法简单易于实现的特点,又充分考虑了最大交集歧义切分字段,保证了分词词典的延展性,一定程度上保证了学科导航分类系统的开放性和适用性。介绍了蚄两种分类算法的基本理论,分别利用软件和惴ǖ腏绦蚪街址掷嗨惴ㄓτ糜谘Э频己剑缓蟠臃掷嗑度、分类速度和算法推广度三个方面对两种实验结果进行了分析评价。实验结果表明蚄在学科导航文本分类中各有优势和缺陷,姆掷嗨俣缺欤惴ㄍ乒愣炔蝗鏚。苯臃从逞居胙镜墓叵担豢悸特征向量对类别的影响,因此在分类精确度上受影响。通过比较蚄实验,提出将狵应用于学科导航。实验结果表明,狵算法结合了惴ê蚄算法的优点,开拓了分类算法的新思路。甂的适用性比茫纸档土薑算法对样本容量的要求和人工干预度,据实验观察,甂是目前解决学科导航分类问题较好的办法。关键词:文本分类中文分词学科导航支持向量机罱摘要
知识水坝***@pologoogle为您整理
幽籹琣,,琣甅甂’:;,,甌:、.獁獁猟籗Ⅱ
知识水坝***@pologoogle为您整理
签名:殊孝乡签名:苏岩缸学位论文版权使用授权书独创性声明弦。辏日弦。屡H他人已经发表或撰写过的研究成果,也不包含为获得盛壑理王太堂或其他教本学位论文作者完全了解盛都堡王太堂有关保留、使用学位论文的规定,借阅。本人授权盛壑理至盘堂可以将学位论文的全部或部分内容编入有关数本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ
第滦论选题依据随着计算机技术的发展和网络应用的普及,殉晌H嗣切畔⒎⒉肌信息获取和交流的主要媒体,说鞘澜缟献畲蟮男畔⒖夂腿蚍段诖播信息的最主要渠道不为过。。猿谋镜男问剑氏指没Ф嘀掷啾鸷托问降男畔ⅲ钩闪艘桓异常庞大的,具有异构性、开放性的分布式信息空间,是极具价值的信息源。但也因为逃械目7判浴⒍院鸵旃剐裕沟糜没Ш苣炎既房旖莸卮谢竦盟栊畔ⅰR虼巳绾慰焖儆行У鼗袢⒐芾砗褪褂谜庑┬畔ⅲ经成为信息系统学科亟待解决的重要问题。对于网络信息,理想的情况是为用户提供个性化服务,让用户能准确而全面地得到贴切个人兴趣爱好的信息,实现这些需要对上的资源进行有效地整序、分类和表现,因此,网络信息组织成为一项具有极大实用价值的技术。网络信息组织方式中,最常见的是搜索引擎。人们通过搜索引擎所得到的是包含大量商业信息、经济信息、文体信息、社会信息等等在内的数量巨大的无序信息,对于专业人员来说,通过搜索引擎获取自己所需的学科信息时,查准率和查全率非常低,同时耗时较多。学科导航系统是另一种专业化信息组织方式,其特点是——①专业性:针对特定的专业领域,主要针对学术研究信息和教育科研用户;②集成性:把专业领域所需要的各种资源与服务凝聚到一个知识体系中;③知识性:根据对知识内容及其关系的分析来选择、描述和组织资源和服务。学科导航系统与搜索引擎最大的不同在于——学科门户针对专业研究型用户,其信息资源经过严格选择。因此,开发网络学科信息导航系统,以学科为单元对网上的大量相关信息源进行搜集、选择、分类、组织、有序化整理,通过导航系统提高信息的查准率和查全率,节省用户的时间,提高各类信息资源的利用率,是高校图书馆数字化信息服务的重要功能之一,也是其有效组织和利用网络信息的手段之一。以往学科导航建设中,大多采用手工收集、整理、分类和标注网页的形式,这种方式要求大量的专业人力资源,尤其是网页分类阶段,工作人员必须具备专业学科素养,而且不同的工作人员可能给出不同的