文档介绍:中文信息抽取关键技术研究与实现摘要随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这样的背景下产生并发展起来的。本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域的应用进行了初步探索。论文的主要研究成果如下:杓剖迪至艘恢肿缘紫蛏系挠屑喽交餮八惴ǎ唤瞿芙献既地完成规则的自动提取,还能较好地实现领域间的移植。在此基础上,设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛事新闻点播系统表明,“信息抽取绦畔的智能信息服务模式是完全可行的。捎靡矶品蚰P投蕴逵滦挛盼谋窘谐槿。杓撇⑹迪了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合的中文信息抽取方式取得了比较令人满意的效果。谔逵滦挛帕煊蚨悦堤迨侗鸾辛酥氐阊芯浚ü规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。剿髁诵畔⒊槿≡谛畔⒛谌莅踩煊虻挠τ谩U攵灾形氖只短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验结果。最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并展望了进一步研究的方向和思路。关键词:信息抽取机器学习命名实体识别隐马尔科夫模型北京邮电大学硕士研究生学位论文
姗汀.,,,琱琲琣瓵瑃甀,“,..,,.:,Ⅱ
⋯,,。.,,.●一
本人签名:超越型量:呵担保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位作了明确的说明并表示了谢意。本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究独创性虼葱滦声明尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中申请学位论文与资料若有不实之处,日期:关于论文使用授权的说明生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:
第一章概述选题背景随着计算机的普及和互联网的迅猛发展,人们获取信息的手段发生了巨大的改变,从原来单一地依靠报纸、电视等传统媒体发展成为主要依靠网络等新兴媒体。面对网络上每天出现的海量级的电子文档,如何从中及时准确地找到自己需要的信息已经成为一个亟待解决的问题。信息抽取正是在这样的背景下产生并发展起来的。目前,信息抽取的主要任务是将大量无序的信息及时、准确地进行整理,提取出特定的事实,组织成便于查询检索的形式。例如,信息抽取系统可以从财经新闻中抽取出公司人事变动的情况:公司名、职位名、离职者、继任者等;从体育新闻中提取出比赛结果:赛事名称、比赛项目、球队名称、比赛成绩等等。抽取结果以结构化的形式描述,保存在数据库中,供用户查询和进一步分析使用。广义上讲Ⅲ,信息抽取的研究对象包括电子文本、语音、图片、视频等,而狭义的信息抽取研究则主要针对的是自然语言文本。本文研究的主要就是狭义的信息抽取。狭义信息抽取的研究对象主要分为三类阻结构化文本喊凑找欢ǜ袷窖细裆傻奈谋荆缡菘庵械奈本信息等。对结构化文本的信息抽取非常容易,准确率也非常高。自由文本何谋局形淖趾虾跤谧匀挥锓ü嬖虻奈谋荆缧挛疟ǖ馈科技文献等。半结构化文本畇航橛诮峁够谋竞妥杂晌谋局洌谋疚字不完全符合自然语法规则的文本。半结构化文本一般比较简短,没有固定的形式,如分析报表、简短广告文等。信息抽取和信息检索是密切相关的,两者既有互补,又存在明显的差异。为了处理海量文本,信息抽取系统通常以信息检索系统缥谋竟的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的差异主要体现在以下三方面浚北京邮电大学硕士研究生学位论文第一章概述
信息抽取的发展和研究成果功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴处理技术不同:信息检索系统通常利用统计及关键