1 / 7
文档名称:

系统学习机器学习之弱监督学习(一)--弱监督学习综述.docx

格式:docx   大小:115KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

系统学习机器学习之弱监督学习(一)--弱监督学习综述.docx

上传人:小雄 2021/11/4 文件大小:115 KB

下载得到文件列表

系统学习机器学习之弱监督学习(一)--弱监督学习综述.docx

相关文档

文档介绍

文档介绍:系统学习机器学习之弱监督学习(一)--弱监督学习综述
摘要:监督学习技术通过学习大量训练样本来构建预测模型,其中每个训练样本 都有一个标签标明其真值输出。尽管当前的技术已经取得了巨大的成功,但是值得 注意的是,由于数据标注过程的高成本,很多任务很难获得如全部真值标签这样的 强监督信息。因此,能够使用弱监督的机器学习技术是可取的。本文综述了弱监督 学习的一些研究进展,主要关注三种弱监督类型:不完全监督:只有一部分训练数 据具备标签;不确切监督:训练数据只具备粗粒度标签;以及不准确监督:给出的 标签并不总是真值。
机器学习在各种任务中取得了巨大成功,特别是在分类和回归等监督学习任务中。 预测模型是从包含大量训练样本的训练数据集中学习,每个训练样本对应一个事件 或对象。训练样本由两部分组成:一个描述事件/对象的特征向量(或示例),以 及一个表示真值输出的标签。在分类任务中,标签表示训练样本所属的类别;在回 归任务中,标签是一个与样本对应的实数值。大多数成功的技术,如深度学习[1], 都需要含有真值标签的大规模训练数据集,然而,在许多任务中,由于数据标注过 程的成本极高,很难获得强监督信息。因此,研究者十分希望获得能够在弱监督前 提下工作的机器学习技巧。
通常来说,弱监督可以分为三类。第一类是不完全监督(incomplete
supervision),艮K只有训练集的一个(通常很小的)子集是有标签的,其他数 据则没有标签。这种情况发生在各类任务中。例如,在图像分类任务中,真值标签 由人类标注者给出的。从互联网上获取巨量图片很容易,然而考虑到标记的人工成 本,只有一个小子集的图像能够被标注。第二类是不确切监督(inexact supervision),艮|3,图像只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。出现这种情况的常见原因有,图片 标注者不小心或比较疲倦,或者某些图片就是难以分类。
弱监督学习是一个总括性的术语,涵盖了尝试通过较弱的监督来学习并构建预测模 型的各种研究。在本文中,我们将讨论这一研究领域的一些进展,重点放在以不完 整、不确切和不准确的监督进行学习的研究。我们将把不同类型的弱监督分开,但 值得一提的是,在实际操作中,几种弱监督经常同时发生。为简单起见,在本文中 我们以包含两个可交换类Y和N的二元分类为例。形式化表达为,在强监督学习 条件下,监督学习的任务是从训练数据集D=((X1, yl),...(Xm,ym)}中学习f:x->y, 其中x是特征空间,y={Y, N), xi£x,以及yify。
我们假设(xi,yi)是根据未知的独立同分布D生成的;换言之,(xi,yi) 本。
图1提供了我们将在本文中讨论的三种弱监督类型的示例。
图1:三种典型的弱监督类型的示例。长条表示特征向量;红色/蓝色标记标签;
「?」意味着标签可能不准确。中间子图描绘了一些混合类型弱监督的情况。
不完全监督
不完全监督考虑那些我们只拥有少量有标注数据的情况,这些有标注数据并不足以 训练出好的模型,但是我们拥有大量未标注数据可供使用。形式化表达为,模型的 任务是从训练数据集D={(XL yl),...,(Xl,yl),Xl+l,...,Xm}中学习f