1 / 57
文档名称:

基于隐马尔科夫模型的中文命名实体识别研究.pdf

格式:pdf   页数:57
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于隐马尔科夫模型的中文命名实体识别研究.pdf

上传人:山吉 2014/3/30 文件大小:0 KB

下载得到文件列表

基于隐马尔科夫模型的中文命名实体识别研究.pdf

文档介绍

文档介绍:西安电子科技大学
硕士学位论文
基于隐马尔科夫模型的中文命名实体识别研究
姓名:赵琳瑛
申请学位级别:硕士
专业:情报学
指导教师:赵捧未
20080101
摘要随着信息时代的到来和姆⒄梗米匀挥镅宰魑H嘶换ヒ咽潜厝磺势,这对自然语言处理的深度和广度提出了越来越高的要求。,并成为很多应用中的关键技术。本文对命名实体识别的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。由于获取上下文信息的多少和数据平滑的程度是评价识别性能的两个重要参数,而以前的统计模型获取上下文信息有限,本文提出了一种基于三阶隐马尔科夫模型的命名实体识别方法,该方法使用语言知识进行约束,兼顾了准确率和召回率,取得了较好的识别效果。自动分词和词性标注直接影响命名实体的识别,本文采用了海量智能分词系统对文本进行分词和标注。在统计词频方面,本文使用了改进的捣椒ǘ圆问泄兰疲⒉捎孟咝圆钪捣ǘ圆问果进行平滑处理。在命名实体识别方面,本文采用改进的惴ǘ猿跏脊鄄序列重新标注,并求出最佳的状态序列。本文识别的主要内容为实体词,即人名、地名和机构名。目前,中文命名实体识别实验仍处于初期阶段,还有不少工作有待进一步完善。今后的工作将进一步研究规则的制定和数据平滑技术,以期进一步提高命名实体的识别率。关键词:命名实体识别隐马尔科夫模型惴数据平滑技术
.Ⅲ琾畁猰畁甒,甒.,篒甆:,..簄甋.—.
本人签名:叁盛煎日期:至塑:后日期:丝量:撼西安电子科技大学学位论文创新性声明关于论文使用授权的说明导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内创新性声明
第一章绪论堤迕ㄈ嗣孛姑研究背景及意义近些年来,中国的信息产业得到了长足的发展,随着计算机网络规模的日益扩大,尤其是高速网络的普及,各种中文电子出版物、中文数字图书馆迅速发展,互联网上中文网页的急剧膨胀,大量的信息以电子文档的形式出现在人们面前。每年仅通过电子邮件在全球流通的信息量就已达到б谡鬃纸冢庀嗟庇诩竿蜃大型图书馆。如何快速、准确地找到真正需要的信息,以应对信息爆炸带来的严峻挑战,成了一个迫在眉睫的问题。海量的信息为人们进行有效的信息获取带来了严峻的挑战,人们迫切需要一些自动化工具来协助进行海量信息处理。许多新兴的信息处理技术如信息抽取、信息检索、机器翻译、数据挖掘等正是在这种背景下产生的。这些技术在越来越多的领域发挥着重要作用,渐渐成为人们工作和生活中不可或缺的一部分。在这些得到广泛应用的技术中有一个共同而基础的阿题就是命名实体识别,国务院制定的国家中长期科技发展纲领中明确指出:中文信息处理技术是高新技术发展的重点。中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。当前汉语信息处理的研究重点己从“字处理R频健按蚀理4视锏淖远蟹质侵形男畔⒋淼氖滓N侍猓彩悄芄徽反碇形奈谋镜必要条件T诜执使讨腥嗣⒌孛约白橹姑让堤宄31磺蟹殖单个的字,严重地影响着句子中语法和语义信息的获取。因此,命名实体识别是信息抽取中非常重要并且是必不可少的关键技术,越来越受到人们的重视和关注,时至今日已经发展成一个独立的研究分支。从世纪年代末开始,随着消息理解系列会议,的召开,信息抽取研究蓬勃发展起来。盗谢嵋槭剐畔抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展,同时也使命名实体识别任务日益受到人们的重视。【】第一次引入了命名实体识别任务,主要是识别出文本中出现的专有名称和有意义的数量短语并加以归类。它包括三个子任务:奔浔泶锸,包括日期,时间和持续时间;直泶锸,包括货币,度量衡,百分比和基数。在年召开的会议中,命名实体被分类为以下郑喝嗣⒌孛机构名、日期、时间、金额和百分比。由于命名实体多是分词系统中词典没有收【俊
国内外研究现状录的词,所以命名实体识别的困难在于:在不同领域和场景下,命名实体的外延有