文档介绍:基于统计机器学习算法的汉语分词系统的研究摘要在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就是不同任务使用不同的处理策略或两个任务按时间顺序先后被处理。我们认为这两个问题从本质上说并不是独立的,完全可以在一个系统里同时将其解决。在本文中,我们提出了一个统一的方法来实现汉语自动分词和中文命名实体识别。统计语言模型已经成功地应用到很多的领域,例如语音识别领域、信息抽取领域和口语理解领域。特别是三元语言模型在这些领域已被证实是相当有效的。在本文中,我们提出了一种统一的统计语言模型方法用来汉语自动分词和中文命名实体识别,这种方法对基于词的三元语言模型进行了很好的扩展。本文旨在使用一个统一的方法解决两个基本的自然语言处理问题:其一是汉语自动分词,其二是中文命名实体识别。我们提出了一种基于类的语言模型的方法,这种方法对于类的定义主要集中在六类:中国人名和外国人名,中国地名和外国地名,中国组织机构名和外国组织机构名。基于类的语言模型包括两个独立的子模型:系列的命名实体语言模型,每个命名实体语言模型估计在给定类的情况下字符串的生成概率;锞衬P停锞衬P凸兰评嘈蛄械纳概率。因此,我们所提出的基于类的语言模型提供了一个统计的框架来统一处理汉语自动分词和中文命名实体识别。初步的结果表明这种方法在与其它的已经发表的基于机器学习的方法比较时是具有竞争力的。通过对北京大学年全年的标注语料的训练,汉语分词的准确率、%;人名、地名、机构名的准确率分别为.%,.%,.%;人名、地名、,取得了很好的名次。关键字统计语言模型汉语自动分词中文命名实体识别基于词的三元语言模型基于类的语言模型ィ北京邮电大学硕士学位论文
知识水坝***@pologoogle为您整理
.甀琂,,珻甌,籥、—.—琤::——‘
知识水坝***@pologoogle为您整理
.%、.%、.%,甒珻琖猙甈..琣珻珻—琣覥‘,猳猘.,
幽掣鲻呈耗ǎ豪冬声明独创性虼葱滦声明关于论文使用授权的说明圣:醴:保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论功砭本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复常侄伪4妗⒒惚嘌宦畚摹保密的学位论文在解密后遵守此规定文注释:本学位论文不属于保密范围,适用本授权书。日期:导师签名:/
第一章绪论本文研究的背景及意义汉语分词和口语分诃,前者指对键盘输入或以光电识别输入计算机的汉语进行处有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。汉语自动分词是年代初期中文信息处理领域提出的重大课题,分为书面理,后者处理的对象是以音频信号输入计算机的汉语,二者的研究方向不同,本文不涉及口语分词技术。词有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物性质、特征、行为和关系等,没词的结构特征表现在结构上是一个不可分割的整体,其意义不是它的几个构成成分绻嬖诘幕的意义的简单总和。人们在阅读时大脑有一个模糊的分词过程,它是视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词、词和词组的语感差别很大。因而人工分词的同一性得不到保证。在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。这些都表明人工分词不能满足汉字处理现代化的要求,但要面对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键。因为“在中文信息处理中,凡是涉及句法、语义等研究项目缁器翻译,自然语言理解等家R源饰;镜ノ弧薄S捎诤河镒远执试谥形男息自动化处理中具有重要的地位,年代末以来,这方面的研究备受人们关注,并涌现出一批有应用前景的分词方法。最早可追溯到年代后期的饿汉翻译机的研制时期,大约在曜笥遥樟