文档介绍：复旦大学
硕士学位论文
特定领域半监督文本分类系统的设计与实现
姓名:郑海清
申请学位级别:硕士
专业:计算机应用技术
指导教师:牛军钰
20070520
旦:论文独创性声明论文使用授权声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谤牡胤酵猓话渌嘶蚱渌挂丫⒈砘蜃垂研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签名本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。作者签名:簗期:
摘要这是一个科学飞速发展的时代,借助计算机等工具以及人类历史上长期的知识积累,各个学科的信息越来越深入和系统,人们迫切需要将这些特定领域的知识进行系统化的分析和归类从而为以后更深入的研究做好准备,于是特定领域内的文本分类成为当前研究的一大热点。目前,特定领域文本分类主要是在传统文本分类的基础上,利用已有的特定领域知识库对文档进行特征选择,用特定领域内的知识来表示文档。这样就带来一个问题,如何寻找合适的知识库来尽量准确地表示文本;对于新兴的学科而言,在尚未形成任何系统化的知识库的时候,又如何进行分类虼耍想的特定领域文本分类方法是能够不借助于任何的领域知识而能够很好的进行分类。同时,在一般的应用中,由于对训练文档进行标注需要耗费大量的人力,所以通常在分类任务的训练集合中所给出的正例和负例的数目都是非常有限的,并且通常标注的正例和负例的文档数目分布也相当的不均衡,大多数情况下训练集合中都只标注出了少量的正例文本。如何从少量的已标注训练样例中获得足够的类别信息以辅助分类也是目前研究文本分类的一个难点。本文综述了现有特定领域文本分类系统的现状,详细介绍了在特定领域内,对于训练集中正负例分布不均衡,且其中包含有大量未标注数据的半监督文本分类问题,提出了一种基于紧密度衡量的分类方法。本文讨论了特定领域半监督文本分类系统的设计与实现细节,并实现了一个用于该类分类问题的系统。本文的工作主要包括:·本文综述了现有特定领域文本分类的研究现状,指出了现有方法由于需要依赖于领域相关本体而带来的局限性。●本文详细分析了半监督文本分类问题的研究现状,给出了几种传统的用于半监督文本分类问题的算法并指出了这些算法的局限性。·提出了一种基于紧密度衡量算法来解决此类的文本分类问题,将通过实验将该算法与其他传统的基于特定领域内文本分类的方法作了详细地比较与·设计和实现了一个用于特定领域内半监督文本分类问题的系统,并在’的基因任务数据集上进行了实验,与’基因任务的其他组结果相比,总体的分类效果都有不同程度的提高,显示了这种算法的优越性和适用性。分析。复旦大学硕士学位论文
关键词:文本分类,特定领域,特征选择,半监督机器学习中图分类号:复旦大学硕士学位论文摘要
.籺..复旦大学硕士学位论文,.·,瑃琭畉’瓵瑃—,瓸瓼——琤甋..—
墨呈查堂堡主堂垡垒奎垒塑竺:—,.’,現.
第一章绪论研究背景与意义自从信息技术出现以来,随着技术的发展和信息量的爆炸式膨胀,各个特定领域的科学发展都极为迅速,随之而来便是各个领域内的知识呈几何级数形式地增长。人们迫切需要一种高效工具来组织这些特定领域内的信息资源,以便更好的检索、过滤和管理它们。特定领域文本分类就是为属于某一特定领域的文档分配一个或几个预先定义好的类别。虽然有许多已经很成熟的传统文本分类技术,但在特定领域内的信息具有独特的特点,如许多在一般通用领域内看来毫无意义的词汇或仅具有一般含义的词汇,在特定领域中却具有特殊意义。因此特定领域文本分类任务需要特定领域知识的支持,这决定了用于一般领域的文本分类系统很难直接应用于特定领域。因此,目前大多数的基于特定领域的文本分类任务都依赖于领域相关的知识库对文本进行特征抽取,基于本体库找出与类别相关的信息进行文本分类。然而,对于目前迅速发展的各个科学领域,领域内的知识甚至整个学科的都是日新月异的,要建立一个完整的领域相关的本体是一项耗时耗力的工程。同时即使对于已经存在有大量本体库的领域的分类任务来说,如何选择恰当的与分类任务相关的本体也是一个比较难的任务俊R虼耍绾问迪址掷嗍辈灰览涤谔囟ǖ挠肓煊蛳喙氐闹J妒迪指效的特定领域的分类是目前研究的一个重点【】。同时,对于一般现实情况下的文本分类任务而言,由于要将整个语料标注出来是一项非常耗时的工作,所以造成了通常在训练集中只有少量标注出的正例,而剩下为大量的未经任何标注的文档。因此对于这样的分类任务,由于标注出的正例数目过少,依赖于标注出的这些正例完全不能够准确而完整的反映出测试集的实际分