1 / 7
文档名称:

基于BERT的对AI理解语言方式的研究.doc

格式:doc   大小:16KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于BERT的对AI理解语言方式的研究.doc

上传人:彩凤w 2022/8/3 文件大小:16 KB

下载得到文件列表

基于BERT的对AI理解语言方式的研究.doc

相关文档

文档介绍

文档介绍:基于BERT的对AI理解语言方式的研究
【摘 要】2010年之后AI进入高速发展期。尤其是在深度学****领域,新的算法层出不穷,屡次突破前人极限。但在技术高速发展的同时,人类自己的想象力也给自己造成了困扰,一些不实的报道充斥着人工智列做编码操作,生成中间的语义编码向量,再将向量输出到解码器。
注意力机制是什么?以翻译举例,输入是Tom chase Jerry,输出是三个词依次输出:汤姆、追逐、杰瑞。在生成三个中文词的过程中,中间的语义编码是动态的,就是说翻译汤姆时,我们的注意力在Tom这个词上多一些,占了60%的权重,而翻译追逐时,输入还是这句英文,但是注意力在Chase这个词多一些。这种注意力权重动态调整的机制称作Attention机制。
self-attention就是输入的语句和输出的语句是完全相同的语句,那它的意义在哪里呢?使用这个机制,在生成输出的句子的过程中,可以发现每一个词和这句话里面其他词之间的关系,这就是新的特征提取器。
特征提取器是什么?NLP里语义就是指词之间的关系,而这种关系就是语言学上的特征。CNN善于提取图像里的特征,RNN可以用来提取每句话的特征,现在self-attention也可以用来提取特征。
那么self-attention和RNN相比,强大在哪里呢?RNN的一个很大的缺陷是无法并发运行,必须按照从左至右的顺序来跑。另外RNN类的LSTM虽然声称拥有长短期记忆,但长度还是有限制。但是self-attention根本没有距离的限制,几十甚至几百个字词之间的关系仍然能找到。
3 Transformer架构
Transformer架构是以encoder/decoder架构为基础,由六个或者更多的Transformer块构成。每块共四层架构,最下面一层是self-attention,是Transformer里最重要的部分。上面一层是归一化层、前馈网络层、归一化层。编码层输入经过这样的六个Transformer块之后,分别生成不同的语义编码,传送给右侧的decoder架构,最后经过一个线性回归线和softmax层,生成最终的结果。
还有一个概念就是multi-head,中文叫‘多头’的一个概念。一个字或词输入到transformer,都是以向量的形式进入。假设这个向量是512维,当它经过六层encoder时,是将这512维分成8份,每份64维分别进行计算。把一个字词切成8部分,每份与句子中的其它词进行交互,可谓你中有我,我中有你,交融得非常彻底。
4 BERT
下面详细解释一下BERT的特点。
首先BERT只有encoder没有decoder。这很容易理解,因为BERT是一个通用的预训练模型,可以接各种下游任务,它的输出只是文本表示,所以不能使用固定的decoder。
第二点,BERT是百层左右的深度神经网络,才能把各种语言学的特征提取出来。BERT面世之前,NLP领域的神经网络基本上只有几层,Transformer架构之后才有可能将NLP网络推向几十上百层。浅层是分析语法,词法层级的特征,深层进入语义的范畴。
第三点,非常重要的一点,BERT是一个预训练模型,这意味着做NLP项目的起点已经大幅提升。在2018年之前,任