文档介绍:摘要进行分类处理;最后通过归并类别的相似度闽值来判断是否与下一个归并类别共关键词:自然语言处理;层次分类模型;分类算法随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此,中文科技论文文本分类研究具有较高的理论研究价值和应用前景。本文针对中文科技论文文本特殊的文体格式和语言风格进行了系统地研究。全文主要从预处理、特征提取和分类算法三大部分展开,重点研究了基于自然语言处理的特征提取和基于层次分类模型的分类算法。预处理方面,本文分为两个步骤:科技论文文本数据预处理和中文分词处理。特征提取方面,分为文本特征表示和文本特征优化,而重点放在文本特征表示这一部分。在自然语言处理方面,主要建立了基于自然语言处理的特征提取模型。语法分析层面,本文提出一一种基于词性判断规则的组块分析策略,对自然语言进行“分而治之”的语法分析;语义层面,结合中文科技论文文本的强领域特征建立了一个领域概念树模型,并在此基础上进行了概念语义分析;语用层面,则在概念层上基于词汇间相似度和关联度,提出了一种语境分析方法。实验表明,在自然语言处理中,选择领域概念作为特征项,其宏平均下的滴ィ⑵骄的只值为.%。在分类算法方面,本论文提出了一种新的层次分类模型,为分类算法建立了一个优良的模型依据。它的基本思想可以分成三个步骤:首先根据复杂特征集中的结构成分标记榭楸曜来分裂结构成分;然后对构成归并类别的结构成分同分析。实验表明,随着分类类别粒度的细化,采用新的分类算法的分类器在精确率和召回率方面优势逐渐突出。相对于蚐分类器更适合于中文科技论文文本的分类要求。
知识水坝为您整理
,篺琧琾,【.:瑃.,’瓵’;.猘.%,.%.甤猯.’瑂.;,.
知识水坝为您整理
:.;猚
厦门大学学位论文原创性声明..┟:勖、钮妒月歹日兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。
日期::瑚年聄作者签名:砾颛本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其他指定机构送交论文的纸质版和电子版,有权将学位论文用于非营利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适应本规定。本学位论文属于⒈C年解密后适用本授权书。⒉槐C
⒒购痛笱Ф己芏啵冉现娜分类是数据挖掘应用领域的重要技术之一,它最初是为了解决信息检索虺艻系统的效率问题而出现的。随着全球计算机的发展和互联网的普及,以及系木蠖嗍J恫撇际且苑墙峁剐问降电子文本信息存在着的。信息检索系统必须操纵大量的文本数据,其文本信息库变得越来越庞大。那么如何在海量的、杂乱无章的文本信息库中获取潜在的、有价值的知识、模型或规则,成了这个时代用户的迫切需要,同时也成为众多研究人员研究的课题【縖。如今文本分类的有关研究已经成为信息处理领域里的一个热门话题,并广泛地应用到实际生产、生活中。究其原因主要是随着母咚俜⒄梗死嗟信息出现雪崩式的增长,每天在网络上出现的文本数量在陨蟍俊R虼嗽谡个纷繁复杂的信息爆炸年代,人们迫切需要快速、准确、全面地获取信息。对信息内容进行自动分类也应运成为其中一种重要手段。它把相似的文本归为一类,有明显区别的文本分属到不同的类别中。原始分类学中人们根据经验和专业知识来进行定性分析K孀攀萘抗婺5闹鸾ピ龃螅约巴臣蒲Ш图扑慊际醯姆展,对文本的定量分析【【砍晌7掷嗉际醯暮诵摹舛晕谋痉掷嗟难芯孔纯龇治在国际上对于文本自动分类的研究开展得比较早,欧美在这个领域内占有绝对的优势。上世纪年代末,,提出了词频统计思想用于自动分类【俊辏砣在戏⒈、瓻.、
科技论文文本分类研究的重要性与应用性学也在开展计算机理解自然语言等方面的研究。【】㈣卡内基梅隆大学谢髦圃霥⒍嗝教迨菘釪⒒チ鳧鲅芯恐心⑺固垢4笱А⒙槭±砉ぱг骸V芯炕谷纾篈拦扑慊幔信息领域最为权威的国际学术组织分薅ゼ兜闹J斗⑾滞等‘縖。到目前为止,国外的文本自动分类研究已经从最初的可行性分析基础研究经历了实验性研究进入实用性的阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用。其中较为成功的系统有麻省理工学院0坠