文档介绍:硕士学位论文
音乐领域中文实体关系抽取研究
RESEARCH OF CHINESE RELATION
EXTRACTION IN THE FIELD OF MUSIC
周蓝珺
哈尔滨工业大学
2009 年 6 月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开
硕士学位论文
音乐领域中文实体关系抽取研究
硕士研究生: 周蓝珺
导师: 刘挺教授
申请学位级别: 工学硕士
学科、专业: 计算机科学与技术
所在单位: 计算机科学与技术学院
答辩时间: 2009 年 6 月
学位授予单位: 哈尔滨工业大学
Classified Index:
.:
Dissertation for the Master Degree in Engineering
RESEARCH OF CHINESE RELATION
EXTRACTION IN THE FIELD OF MUSIC
Candidate: Zhou Lanjun
Supervisor: Prof. Liu Ting
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
Affiliation: School puter Science and
Technology
Date of Defence: June, 2009
Degree-Conferring-
Harbin Institute of Technology
Institution:
哈尔滨工业大学工学硕士学位论文
摘要
随着互联网上信息的快速增长,人们迫切需要一些自动化的工具帮助其
在海量信息中迅速找到真正需要的信息。信息抽取(Information Extraction)
研究正是在这种背景下产生的,关系抽取(Relation Extraction)是信息抽取
的子任务之一。
实体关系抽取的任务是从文本中抽取出两个或者多个实体之间预先定义
好的语义关系。本文将实体关系抽取定义为一个分类问题,主要研究内容是
中文音乐领域的实体关系抽取。针对这一问题,本文首先构建了中文音乐实
体关系语料库,然后分别采用了基于序列模式挖掘的无指导的方法和基于特
征提取的有指导的方法来解决这一问题。
在语料库的建设过程中,本文参考了 ACE 语料的构建过程,首先定义
了包含 11 种实体关系的中文音乐领域关系类型体系;接着制定了详细的标
注规范并完成了 10,000 句语料的标注工作。与此同时,本文针对音乐领域
和中文的语言学特点,定义了音乐领域的序列模式。由于 BootStrapping 方
法的引入,实体关系种子可自动扩展并可从互联网上挖掘大量的高准确率的
序列模式。在评测集上,该方法取得了平均准确率为 %的结果。最后,
本文基于已标注完成的语料库,研究了音乐领域实体关系抽取的特点,并根
据其特点进行了特征选择的研究,分别使用最大熵(Maxent)和支撑向量
机(SVM)对特征抽取的结果进行了实验,在相同的测试集上,SVM 分类
器取得了更好效果。另外,本文还将序列模式分类器与支撑向量机分类器进
行了级联,在评测集上取得了平均 F 值为 %的结果。
最后,本文还设计和实现了中文音乐实体关系抽取实验平台,在该平台
上,研究人员可以集中精力进行挖掘方法和特征选择的改进,提高了研究效
率。
关键词关系抽取;音乐实体关系;序列模式挖掘;最大熵模型;支
撑向量机;
- I -
哈尔滨工业大学工学硕士学位论文
Abstract
As the rapid growth of information on the , tools which could help
people to automatically find out what they want from a mass of information are
needed urgently. The research of information extraction emerges under this
background