文档介绍:排序学习中的领域白适应研究研究方向:月院系:专业:指导教师:论文作者:
嘞澈№㈣Ⅲ,,舢洲吣㈣骸!狹.....,::::¨АА■■
新签名一作者签名:,一《排序学鹋领域自适应研究》系本人在华东师范大学攻读学位期日在导师指导鹤大学攻读硕士/博毫‘请勾选黄诩洌诘际Φ闹傅枷陆械难芯抗ぷ骷叭〉玫难芯≯华东师范大学学位论文原创性声明华东师范大学学位论文著作权使用声明下完成的硕士/博士牍囱学位论文,本论文的研究成果归华东师范大学所有。本人郑重声明:本人呈交的学位论文《排序学中的领域自适应研究》,是在华东师范成果。除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中作了明确说明并表示谢意。同意华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。“内部颉吧婷堋毖宦畚呐#年/月日解密,解密后适用上述授权。襶槐C埽视蒙鲜鍪谌ā名于事“涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位论文韪交衽摹痘6Ψ洞笱а芯可昵胙宦畚摹吧婷堋鄙笈怼贩轿S行,未经上述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权日
瓒泖镌硷位M饪三六霉岔觅。/祝盼露而寻瞪稚资努徂痘趁馏背Х髭撞伍旦夭军王哓巧击故锑名据程箍博士学位论文答辩委员会成员名单单位备注主席姓名职称,’
摘要源领域文档对目标领域的重要性;然后,把这些文档权重转换成文档对权重;最随着监督式机器学习技术在各个领域的广泛应用,研究人员逐渐意识到,训练数据的缺乏是阻碍学习模型快速部署的关键因素之一。最近几年,如何解决训练数据缺乏的问题,已经成为机器学习,自然语言处理,信息检索、多媒体等领域的研究热点。排序学习是信息检索的关键问题之一。目前,基于监督的机器学习技术被认为是解决排序学习的最佳选择。如同传统监督式学习技术,目标领域缺乏训练数据也是排序学习正在面临的实际问题。针对排序学习,我们研究了如何利用其他相关领域的已有训练数据,学习出适用于目标领域的模型,即领域自适应。本文的主要贡献有以下几个方面:岢隽嘶谖牡等ㄖ氐呐判蜓白允视蚣堋J紫龋昧煊蚍指舫矫婀兰终,文档对权重可以集成到基于文档对的排序学习算法中。芯苛酥呐判蜓八惴≧的领域自适应问题。在基于文档权重的排序自适应框架下,提出了三种基于文档权重的惴ǎ⒎直鸲运墙行了理论分析和试验比较。岢隽酥苯釉诓檠愦喂兰圃戳煊虿檠阅勘炅煊蛑匾P缘姆椒āT谂判蜓中,查询是带有相关性标签的文档集合,是排序学习的基本对象。我们分别从两个不同的角度进行查询权重估计:ú檠顾醭商卣飨蛄浚缓蟛捎么的权重估计方法进行查询权重估计。悦扛鲈戳煊虻牟檠阉来魏湍勘领域查询进行比较;通过集成这些两两比较的结果,估计源领域查询对于目标领域的重要程度。岢隽嘶谥鞫暗呐判蜓白允视λ惴āNA嘶竦媚勘炅煊蛱赜械呐判蛑识,采用主动学习技术,选择少量目标领域具有信息量的查询进行标注。这些查询可以弥补源领域所缺失的目标领域排序知识,同时,利用这些目标查询评估源查询对目标领域的重要性权重,从而充分利用源领域的训练数据。煊蜃允视际跤τ迷谟镆迨堤迨侗鹬校岢隽死昧煊蚨懒⑻卣骼丛銮苛域自适应能力的方法。传统实体识别仅仅使用短文本特征,当训练文档和测试文档在风格上稍有差异时,性能便有明显下降。为解决该问题,我们设计了一个隨的组合框架,通过该框架,短文本特征与领域独立特征可以有效的集成,最终获得的识别模型能够更好地适用于目标领域。华东师范大学博士学位论文第’