文档介绍:上海交通大学
硕士学位论文
基于事件框架的突发事件信息抽取
姓名:冯礼
申请学位级别:硕士
专业:智能信息处理
指导教师:盛焕烨
20080101
上海交通大学硕士学位论文基于事件框架的突发事件信息抽取
基于事件框架的突发事件信息抽取
摘要
在目前信息爆炸的时代,基于事件框架的新闻信息抽取技术能够更好
地满足人们获知网上有效信息的需要。通过对新闻语料的分析,可以预
定义三类突发事件的框架结构,由此可对事件各侧面采取定制的处理。
利用对新闻报道的词性标注、对地点数据库的查询以及基于语料研究的
一些抽取规则的制订,能有效地抽取新闻事件的时间、地点、结果等各
侧面信息。
由于新闻事件的复杂及动态发展的特点,基于事件框架信息抽取中
存在一个问题:静态结构的框架限定了能抽取的侧面内容。为此,本文
引入事件新侧面探测方法,采用自动探测方法寻找框架中未预定义的侧
面。为充分利用句子中词性、语序及词之间的关系,本文使用词对特征
模型进行特征提取,选择基于段落的LSA聚类算法来实现新侧面探测。
根据原型系统在突发事件语料库上的测试结果,本文提出的方法被证
明是切实可行的,对于突发事件新闻要素的抽取达到了较高的正确率和
召回率。事件新侧面探测的结果较好地表现了单个事件的特性和同类事
件未包含在框架内的某些共性。实验结果证明了本研究的应用前景。
关键词:信息抽取,事件框架,新侧面探测,词对特征
I
上海交通大学硕士学位论文基于事件框架的突发事件信息抽取
BREAKING EVENTS’ INFORMATION
EXTRACTION BASED ON EVENT FRAME
ABSTRACT
In today's information explosion age,the technology of events’
information extraction,which is based on event frame, can better satisfy the
need of getting valid information from .By analyzing the news
corpus,we predefine three kinds of breaking news' event frame and thus
deal with each news' flank in customized the use of POS tagging
on news article,querying in location database and defining rules based on
corpus study,we can effectively extract news event's flank information such
as time,location and results.
plexity and the dynamic changing of news events cause such a
problem: the static frame structure restricts extractable contents. In order to
solve this problem in information extraction system, we propose a new
technology called events' new flank detection,which uses automatic detection
to find out undefined take fully advantage of the POS,word order
II
上海交通大学硕士学位论文基于事件框架的突发事件信息抽取
and the relations between words in sentences,we use word pair feature model
to extract features and select paragraph-oriented LSA clustering algorithm to
implement new flank detection.
According to the testing results on the prototype system on three kinds of
breaki