文档介绍:实体内部的多级前后缀语素特征,进而在条件随机场模型上融合内部结构特征和一⋯⋯⋯⋯~中文摘要如何迅速、有效地从这些海量的、非结构化的文本中获取我们所需要的信息和知识已经成为自然语言处理领域的一个研究热点。作为信息抽取的重要子任务,命名实体识别在许多自然语言处理应用领域起着十分重要的作用,其主要目的是识别文本或句子中表示人名、地名、机构名以及时间日期等信息的短语。本文引入实体语素概念,在机器学习框架融合实体内部结构特征和外部上下文信息研究人名、地名和机构名等命名实体识别方法,重点解决地名和机构名当中存在的大量复杂的、含有嵌套结构的命名实体识别问题。具体地,本文从以下三个方面展开研究:首先,采用基于机器学习方法构建汉语命名实体的双层模型,并通过实验对最大熵和条件随机场组合成的四种双层模型进行了对比测试。结果表明基于条件随机场的双层模型对嵌套命名实体的识别效果最好。在此基础上,对双层模型的错误识别结果进行了分析,进而提出一种基于互信息的后处理方法,对复杂的命名实体进行纠错处理,很大程度上解决了嵌套命名实体边界识别错误问题。其次,将非嵌套的简单实体和嵌套的复杂实体分开分别处理,同时以字和词条件随机场的双层模型结构,以进一步提高嵌套命名实体识别效果。最后,通过语料库考察了汉语嵌套命名实体与实体语素之间的关系,并以命名实体语素为基础,通过回归模型中变换方法筛选出的嵌套命名外部上下文信息,实现了一个基于实体语素的汉语嵌套命名实体识别系统。实验结果表明,命名实体语素的引入有利于提高嵌套命名实体识别的性能。关键词:命名实体识别;嵌套命名实体;条件随机场:最大熵随着近几年互联网的飞速发展,网络中各种各样的电子文本信息急剧膨胀。相结合的方式,深入剖析多层嵌套命名实体的结构特点,并以此为基础改进基于中文摘要.‘
————些丝丝一㈣螋。一——’。。—。⋯一⋯⋯.,.————一⋯——·一琹琽甆甅瓸甌,琩,、,,甌—萱宣萱置鹖嬉Ⅲ川叫川川圳洲Ⅲ川拗薮ùù颍‘
:瓻·.
⋯...河锴短酌堤宓牟愦畏植肌目录目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯.Ⅳ国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯嵌套命名实体结构特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯中文摘要⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。第滦髀邸本文研究的目的和意义⋯⋯⋯..二⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.命名实体⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.壳按嬖诘闹饕N侍狻本文主要研究内容及结构安排⋯⋯⋯⋯⋯⋯⋯!命名实体分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯嵌套命名实体统计分布⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.堤灞曜⒂锪峡狻璴一⋯..第禄谒ú隳P偷暮河锴短酌堤迨侗稹形式化描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.黑龙江大学硕士学位论文⋯⋯.⋯...⋯⋯.⋯..⋯..⋯.⋯⋯...⋯⋯⋯⋯..⋯⋯..⋯⋯.⋯.⋯.⋯.⋯..⋯⋯⋯⋯.:...⋯⋯....⋯⋯..
汉语命名实体语素⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯语素抽取和切分⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯特征选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.嗉肚昂笞河锼靥卣鳌基于语素的汉语嵌套命名实体识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..笛榻峁本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。基于双层模型的汉语嵌套命名实体识别方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..ú隳P汀基于后处理的汉语嵌套命名实体识别方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于混合式的汉语嵌套命名实体识别方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.≡