1 / 30
文档名称:

从Transformer到Bert.pptx

格式:pptx   大小:9,192KB   页数:30页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

从Transformer到Bert.pptx

上传人:Bonnacon 2021/11/4 文件大小:8.98 MB

下载得到文件列表

从Transformer到Bert.pptx

相关文档

文档介绍

文档介绍:从 Transformer 到 BERT
-- 李小涛/intsig
-- 2019/01/24
Transformer 原理介绍
1. 基本网络结构
2. transformer 学到了什么
3. 与CNN、RNN 的对比
二. NLP 的预训练的发展
BERT
1. 预训练任务的设计
2. 在各任务上的性能
3. 一点实践
Tranformer 结构
《Attention Is All You Need》【】
一. Transformer 原理介绍
Transformer encode_decode 动态图
tranformer--encoder
input
token+ position+seg
self multi-head
attention
residual
layer_norm
dense+active
dense
layer_norm
residual
下一层
dense
q、k、v是不同的转化矩阵, 线性
是否可以让 k、v 相同呢?
多头的维度转化为 原始的维度, 线性
便于进行residual, 线性不会改变多头的原有信息
转化为一个中间层较大维度 3072, 非线性
对当前层多头attention 的结果做非线性的整合
猜测采取较大维度的原因:让整合的方式更多
还原成原来token向量的维度,线性
一. Transformer 原理介绍
一. Transformer 原理介绍
Self-attention:自己跟自己做Attention,输入序列=输出序列。Q=K=V。
一. Transformer 原理介绍 —学到了什么
Imgnet 各层级提取的特征 非常明显, 从底层到高层, 逐渐由边缘到整体
Transformer 到底学到了什么?
模式1: 注意下一个词
模式2:注意前一个词
一. Transformer 原理介绍 —学到了什么
通过位置的 em 可以学到
模式3:注意相同或相关的单词
模式4:注意“其他”句子中相同或相关词
一. Transformer 原理介绍 —学到了什么
通过 token 的 em 可以学到
模式6:注意分隔符
模式5:注意cls
一. Transformer 原理介绍 —学到了什么
通过 seg 的 em 可以学到
或许各种语法知识(动宾、主谓)也可以在某些层的某些head 中 找到可视化场景
一. Transformer 原理介绍 —学到了什么
Transformer 没有向imgnet 那样明显的层级特征,imgnet 的层级特征抽取主要是 cnn 的结构带来的结果
Transformer 从一开就是从全局出发学到的词的表示, 词义以及词和词之间的关系 构成句子的表示, 由于数据量够大,网络层次足够复杂,可以更加充分的表示词义和句义
想法:
找一些相同句式、不同句式相同意思、相反意思的句子 进行逐层的 矩阵对比