文档介绍:BERT蒸馅在垃圾舆情识别中的探索
简介:近来BERT等大规模预训练模型在NLP领域各项子任务中取得了不凡的结果,但是模型海量 参数,导致上线困难,不能满足生产需求。舆情审核业务中包含大量的垃圾舆情,会耗费大量的人 力。本文在垃圾舆情识别任务中尝试BERT蒸馅技术,提升textCNN分类器性能,利用其小而快的 优点,成功落地。
风险类型
无效
有效
是模型海量参数,导致上线困难,不能满足生产需求。舆情审核业务中包含大量的 垃圾舆情,会耗费大量的人力。本文在垃圾舆情识别任务中尝试BERT蒸馅技术, 提升textCNN分类器性能,利用其小而快的优点,成功落地。
风险样本如下:
舆情样本
突然闲下来好无聊啊不知道干啥想吃好吃的打开饿了么看了半小时然后 天黑了害我唱会歌儿吧???
投诉编号:**********投诉对象:饿了么客户关怀投诉问题:服务不 到位/态度差,逾期未发货投诉要求:赔偿,道歉,改善服务,作出处罚涉诉金 额:16元投诉进度:已回复等了近一个小时,商家在未进行沟通的前提下 直接取消订单。原因是动力不足,无法配送。为何让人白等一小时? !
一传统蒸馅方案
目前,对模型压缩和加速的技术主要分为四种:
参数剪枝和共享
低秩因子分解
转移/紧凑卷积滤波器
・知识蒸馅
知识蒸馅就是将教师网络的知识迁移到学生网络上,使得学生网络的性能表现如教 师网络一般。本文主要集中讲解知识蒸馅的应用。
soft label
知识蒸馅最早是2014年Caruana等人提出方法。通过引入teacher network (复杂 网络,效果好,但预测耗时久)相关的软标签作为总体loss的一部分,来引导 student network (简单网络,效果稍差,但预测耗时低)进行学****来达到知识 的迁移目的。这是一个通用而简单的、不同的模型压缩技术。
大规模神经网络(teacher network)得到的类别预测包含了数据结构间的相似 性。
有了先验的小规模神经网络(student network)只需要很少的新场景数据就能够 收敛。
Softmax函数随着温度变量(temperature)的升高分布更均匀。
Loss公式如下:
L — OiLsoft + 8 L hard
Lsoft =
其中,
exp (如/T)
exp(Zi/T)
q?=
Ef exp(%/7)
以 exp(2)
由此我们可以看出蒸馅有以下优点:
• 学****到大模型的特征表征能力,也能学****到one-hot label中不存在的类别间 信息。
- 具有抗噪声能力,如下图,当有噪声时,教师模型的梯度对学生模型梯度有一 定的修正性。
・一定的程度上,加强了模型的泛化性。
红色为噪声数据梯度,黄色为教师模型梯度,绿色为最优梯度
using hints
(ICLR 2015) FitNets Romero等人的工作不仅利用教师网络的最后输出logits,还 利用了中间隐层参数值,训练学生网络。获得又深又细的FitNetso
(b) Hints Training
(c) Knowledge Distillation
(a) Teacher