1 / 66
文档名称:

(硕士毕业论文)中文信息抽取关键技术研究与实现__硕士学位论文.pdf

格式:pdf   页数:66页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

(硕士毕业论文)中文信息抽取关键技术研究与实现__硕士学位论文.pdf

上传人:精品文档 2013/7/15 文件大小:0 KB

下载得到文件列表

(硕士毕业论文)中文信息抽取关键技术研究与实现__硕士学位论文.pdf

文档介绍

文档介绍:中文信息抽取关键技术研究与实现摘要随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这样的背景下产生并发展起来的。本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域的应用进行了初步探索。论文的主要研究成果如下:杓剖迪至艘恢肿缘紫蛏系挠屑喽交餮八惴ǎ唤瞿芙献既地完成规则的自动提取,还能较好地实现领域间的移植。在此基础上,设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛事新闻点播系统表明,“信息抽取绦畔的智能信息服务模式是完全可行的。捎靡矶品蚰P投蕴逵滦挛盼谋窘谐槿。杓撇⑹迪了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合的中文信息抽取方式取得了比较令人满意的效果。谔逵滦挛帕煊蚨悦堤迨侗鸾辛酥氐阊芯浚ü规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。剿髁诵畔⒊槿≡谛畔⒛谌莅踩煊虻挠τ谩U攵灾形氖只短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验结果。最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并展望了进一步研究的方向和思路。关键词:信息抽取机器学习命名实体识别隐马尔科夫模型北京邮电大学硕士研究生学位论文
姗汀.,,,琱琲琣瓵瑃甀,“,..,,.:,Ⅱ
⋯,,。.,,.●一
本人签名:超越型量:呵担保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位作了明确的说明并表示了谢意。本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究独创性虼葱滦声明尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中申请学位论文与资料若有不实之处,日期:关于论文使用授权的说明生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:
第一章概述选题背景随着计算机的普及和互联网的迅猛发展,人们获取信息的手段发生了巨大的改变,从原来单一地依靠报纸、电视等传统媒体发展成为主要依靠网络等新兴媒体。面对网络上每天出现的海量级的电子文档,如何从中及时准确地找到自己需要的信息已经成为一个亟待解决的问题。信息抽取正是在这样的背景下产生并发展起来的。目前,信息抽取的主要任务是将大量无序的信息及时、准确地进行整理,提取出特定的事实,组织成便于查询检索的形式。例如,信息抽取系统可以从财经新闻中抽取出公司人事变动的情况:公司名、职位名、离职者、继任者等;从体育新闻中提取出比赛结果:赛事名称、比赛项目、球队名称、比赛成绩等等。抽取结果以结构化的形式描述,保存在数据库中,供用户查询和进一步分析使用。广义上讲Ⅲ,信息抽取的研究对象包括电子文本、语音、图片、视频等,而狭义的信息抽取研究则主要针对的是自然语言文本。本文研究的主要就是狭义的信息抽取。狭义信息抽取的研究对象主要分为三类阻结构化文本喊凑找欢ǜ袷窖细裆傻奈谋荆缡菘庵械奈本信息等。对结构化文本的信息抽取非常容易,准确率也非常高。自由文本何谋局形淖趾虾跤谧匀挥锓ü嬖虻奈谋荆缧挛疟ǖ馈科技文献等。半结构化文本畇航橛诮峁够谋竞妥杂晌谋局洌谋疚字不完全符合自然语法规则的文本。半结构化文本一般比较简短,没有固定的形式,如分析报表、简短广告文等。信息抽取和信息检索是密切相关的,两者既有互补,又存在明显的差异。为了处理海量文本,信息抽取系统通常以信息检索系统缥谋竟的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的差异主要体现在以下三方面浚北京邮电大学硕士研究生学位论文第一章概述
信息抽取的发展和研究成果功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴处理技术不同:信息检索系统通常利用统计及关键

最近更新

【精品】成语故事作文汇编5篇 4页

【精华】人生的哲理作文汇编4篇 4页

【推荐】父亲节的礼物作文11篇 6页

交通·产业·空间规划协同创新研究 2页

《你很特别》读后感(精选2篇) 2页

井下紧急避险系统锂一次电源系统初探 2页

云平台系统安全技术在轨道交通AFC系统中的应用.. 2页

事业单位财务管理的目标与实现探究 2页

为建筑优化而努力──中关村915住宅设计回顾与.. 2页

中波发射机双频共塔网络调整探讨 2页

中国茶文化中的儒家思想对大学生思想教育的作.. 2页

中国山水画美学观念在山水村镇夜景照明中的应.. 2页

中国企业OFDI影响因素分析——基于母国层面的.. 2页

餐饮行业安全生产培训 50页

不定方程在回转主轴箱分度机构中的应用及其参.. 2页

一种高效纯化辅酶Q10的新工艺 2页

一种基于脱膜叶片的顺向脱膜机构分析及试验研.. 2页

一种使用纠错技术的8B10B编码器设计 2页

《食品化学》教学中“转动课堂”教学模式的研.. 2页

《工业企业经济活动分析》辅导(续) 2页

2024年度小学教师个人总结推荐6篇 12页

2025小学班主任德育工作总结(32篇) 120页

2025年迎新生的欢迎词(29篇) 37页

青少新概念入门级bunit 59页

《父母的心》教案四篇 11页

专项整治财务会计的自查报告(29篇) 75页

甲醇水溶液体系中PMMA塑料光纤的掺杂研究 9页

“互联网+”背景下乡村旅游电子商务发展研究 2页

“世越号”打捞采用链式提升器进行船首系固方.. 2页

“2017环境友好与安全性家用化学品技术国际培.. 2页