文档介绍:中国科学院自动化研究所
硕士学位论文
大规模平衡语料的收集分析及文本分类方法研究
姓名:陈克利
申请学位级别:硕士
专业:模式识别与智能系统
指导教师:宗成庆
20040601
摘要语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以语还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究祁开发,料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要相应的信息词典。该工作主要包括:诙源蠊婺:河锲胶庥锪鲜占椒ń条标注信息包括词性、注音、词频和专用词的领域信息等。了在算法中用的次方代替,并引入淞吭肌理方法,~ァ第三,在特征向量抽取方面,在掷嗥魃隙猿<奶卣飨蛄浚危唬悍法进行了全面对比,然后提出了将算法用于特征抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效果均优言事实作为依据,、无本之木。尤其是随着统计模型在鲁然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象压身的研究,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编纂、语言教学等工作的重要环节。医此,本论文从事於大规模平翁语的理论惹义和实用价值。本文首先在欧共体项目猄的资助下,开展了大规模汉语平衡语半姆⒓敕治龉ぷ鳎渲饕D康氖墙⒁桓龇从诚执河镉镅蕴氐愕摹青于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立一部调研和分析的基础上,收集并标注了规模达万字的汉语平衡语料:收集的语料为基础,建立了一个大规模嗤虼的现代汉语信息词典,诟以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括:第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出第二,类似于上面的处理方法,。关键词:平衡语料,语料库,文本分类,特征拍取
蟜猚.:.;、.一:猚畐,%..琣猻瓻、Ⅳ.猻琤琓,,,—甦猚琣:甌猼,瑆’縣妫、、疭,:.Ⅱ.
瑀,%.,:,琓,,
签名:—狄畲碌际η┟憾纤苎覮日期:三竺签名::垫堑到导师签名级良丝兰盟独创性声明关于论文使用授权的说明本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅:可以公布论文的全部或部分内我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。容,可以采用影印、缩印或其他复制手段保存论文。C艿穆畚脑诮饷芎笥ψ袷卮斯娑日期:
第一章绪言语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规研究和开发,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研从浩如云烟的结果中找到自己真正需要的信息也越来越困难,除非能够以一种来源各异、千差万别的文本进行合理的分类和整理,这就是文本分类技术一个数字图书馆的分类和管理、词义消歧、主题识别、语料库建设、元数据生成等。第二章是大规模平衡语料的收集分析,主要介绍—词典和语料建设对不同词类在各领域的分布情况从两方面驶懔亢透髦执世嗨急壤进行语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以模语料库的支持,否则只能是无源之水、无本之木。尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的究的基础性工作,也是字典编纂、语言教学等工作的重要环节。因此,本论文从事的大规模平衡语料的收集和分析工作,具有重要的理论意义和实用价值。自动文本分类技术是在给定分类体系下,根据文本内容确定其所属类别.,K孀磐绾托畔⑹贝牡嚼矗嗣腔袢⌒畔⒌氖侄越来越丰富,可供选择的信息量也成指数级膨胀。数据量的增长一方面:为人们进行各种活动提供了充分的资源,而且通过网络相当的便捷;另一方面:要自动的方式让计算机帮助去检索。而一个好的检索系统,首先最关键的是要对最重要的应用一信息检索。自动文本分类技术是自然语言处理领域的一个重要课题。除了上面提到的信息检索以外,文本分类还应用在其他许多方面,如:信息过滤、文档索引、本文主要包括三部分内容。项目,并以此为基础,比较和分析了不同领域的用词特点。这一部分又可以分成两大部分,第一部分主要是介绍与—项目相关的语料收集和词典建设工作,包括通用语料的收集和各种词表ㄍㄓ么时怼⒆