1 / 141
文档名称:

序列标注问题监督学习方法及应用.pdf

格式:pdf   页数:141页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

序列标注问题监督学习方法及应用.pdf

上传人:jd234568 2016/6/19 文件大小:0 KB

下载得到文件列表

序列标注问题监督学习方法及应用.pdf

相关文档

文档介绍

文档介绍:国内图书分类号: 学校代码:10213 国际图书分类号: 密级:公开工学博士学位论文序列标注问题的监督学****方法及应用博士研究生:汤步洲导师:王晓龙教授申请学位:工学博士学科:计算机应用技术所在单位:深圳研究生院答辩日期:2011年03月授予学位单位:哈尔滨工业大学 Classi?ed Index: .: Dissertation for the Doctoral Degree SEQUENCE LABELING: SUPERVISED LEARNING AND APPLICATIONS Candidate: Tang Buzhou Supervisor: Prof. Wang Xiaolong Academic Degree Applied for: Doctor of Engineering Specialty: Computer Application Af?liation: Shenzhen Graduate School Date of Defence: March, 2011 Degree-Conferring-Institution: Harbin Institute of Technology 摘要摘要随着机器学****理论的发展,机器学****方法逐渐开始处理复杂的学****任务。在监督学****方面,不再局限于解决简单的分类问题,一些复杂问题逐渐进入研究者的视线。其中,序列标注问题因普遍存在于多个研究领域而长期倍受关注。本文主要探讨解决序列标注问题的监督学****方法及其在自然语言处理领域和生物信息学领域的若干应用。研究内容主要包括: 第一,基于大间隔的序列标注方法的研究。统计语言模型通常用来解决序列标注问题,并在很多应用中取得了很好的效果。但都存在过拟合问题。基于大间隔的序列标注方法将大间隔的思想引入到序列标注方法中,在理论上保证泛化能力的同时,还能取得好的预测性能。本文正是考虑到基于大间隔的序列标注方法的这些优点,将其应用到英文组块识别、中文分词、生物文本命名实体识别和蛋白质二级结构预测等问题中,均取得了优于其他对比方法的预测性能。第二,置信度加权在线序列标注算法。在自然语言处理领域,序列标注问题具有特征稀疏的特性。为了充分描述这一特性,采用置信度加权分类算法的思想,引入特征权值参数的概率置信度概念,提出了一种新的线性决策式在线序列标注方法:置信度加权在线序列标注算法。在英文组块分析、中文分词、中文命名实体识别以及生物医学命名实体识别等问题上的实验结果表明:置信度加权序列标注算法与现有优秀的在线序列标注算法相比,在预测性能和收敛速度上存在优势;与现有优秀的离线序列标注算法:条件随机场相比,在存储空间和收敛速度上存在优势,且预测精度与之相当。第三,基于频度的在线自适应N-gram序列标注学****算法。N-gram是最基本的序列标注算法,因实现简单、高效而经常被应用系统所采用。在基于N-gram的应用系统中,不同的用户往往对应着不同的N-gram模型。对同一用户而言,N- gram模型也应该随着用户的使用而不断优化。针对这些问题,本文讨论了基于词频的N-gram在线自适应学****算法。这类算法根据用户的每次使用情况,在线自动调整相关频度参数,使N-gram模型达到局部最优。将其应用到音字转换问题中, 取得了很好的效果。第四,基于重排序技术的Stacking集成序列标注学****算法。与单一学****算法相比,集成学****往往能通过组合多个单一模型提高预测性能。本文提出了一种基于重排序技术的Stacking集成学****算法,并将其扩展到序列标注问题。该算法采– I –哈尔滨工业大学工学博士学位论文用stacking集成结构,利用重排序技术在训练语料上自动寻找多个单一模型的最优线性组合,分为三个步骤:一、训练多个基模型;二、对每一个训练样本按照样本标签或标签序列将多个基分类器的预测分值组合成新的排序样本;三、对步骤二生成的排序样本重新排序。从理论上讲,这一过程是求解基模型最优线性组合的过程。在分类问题上优于其他对比算法,在生物医学命名实体识别序列标注问题上也获得了优于所有单一模型的预测性能和其他对比算法。第五,多任务序列标注级联学****算法在Hedge识别及其作用范围界定问题中的应用。在实际应用中,存在一类序列标注问题,需要给样本观测序列在不同层次上进行标注,称为多任务序列标注问题,通常采用级联学****算法来解决这类问题。本文把Hedge识别及其作用范围界定问题当作多任务序列标注问题,设计了一个二层结构的级联学****算法用来解决这一问题。所谓Hedge是指表达不确定观点的词后词串,是一个热点研究课题。Hedge识别及其作用范围界定是国际公开评测CONLL-2010的评测内容,本文提供的级联学****算法在CoNLL-201