1 / 99
文档名称:

RBM DBN RNN资料综合.doc

格式:doc   大小:3,160KB   页数:99页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

RBM DBN RNN资料综合.doc

上传人:511709291 2020/6/11 文件大小:3.09 MB

下载得到文件列表

RBM DBN RNN资料综合.doc

相关文档

文档介绍

文档介绍:、RestrictedBoltzmannMachine(RBM)限制波尔兹曼机    假设有一个二部图,每一层的节点之间没有,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值变量节点(只能取0或者1值),同时假设全概率分布p(v,h)满足Boltzmann 分布,我们称这个模型是RestrictedBoltzmannMachine (RBM)。    下面我们来看看为什么它是DeepLearning方法。首先,这个模型因为是二部图,所以在已知v的情况下,所有的隐藏节点之间是条件独立的(因为节点之间不存在连接),即p(h|v)=p(h1|v)…p(hn|v)。同理,在已知隐藏层h的情况下,所有的可视节点都是条件独立的。同时又由于所有的v和h满足Boltzmann分布,因此,当输入v的时候,通过p(h|v)可以得到隐藏层h,而得到隐藏层h之后,通过p(v|h)又能得到可视层,通过调整参数,我们就是要使得从隐藏层得到的可视层v1与原来的可视层v如果一样,那么得到的隐藏层就是可视层另外一种表达,因此隐藏层可以作为可视层输入数据的特征,所以它就是一种DeepLearning方法。    如何训练呢?也就是可视层节点和隐节点间的权值怎么确定呢?我们需要做一些数学分析。也就是模型了。    联合组态(jointconfiguration)的能量可以表示为:    而某个组态的联合概率分布可以通过Boltzmann分布(和这个组态的能量)来确定:   因为隐藏节点之间是条件独立的(因为节点之间不存在连接),即:   然后我们可以比较容易(对上式进行因子分解Factorizes)得到在给定可视层v的基础上,隐层第j个节点为1或者为0的概率:    同理,在给定隐层h的基础上,可视层第i个节点为1或者为0的概率也可以容易得到:    给定一个满足独立同分布的样本集:D={v(1), v(2),…, v(N)},我们需要学****参数θ={W,a,b}。    我们最大化以下对数似然函数(最大似然估计:对于某个概率模型,我们需要选择一个参数,让我们当前的观测样本的概率最大):    也就是对最大对数似然函数求导,就可以得到L最大时对应的参数W了。     如果,我们把隐藏层的层数增加,我们可以得到DeepBoltzmannMachine(DBM);如果我们在靠近可视层的部分使用贝叶斯信念网络(即有向图模型,当然这里依然限制层中节点之间没有),而在最远离可视层的部分使用RestrictedBoltzmannMachine,(DBN)。 、works深信度网络    DBNs是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候,DBNs遇到了以下问题:(1)需要为训练提供一个有标签的样本集;(2)学****过程较慢;(3)不适当的参数选择会导致学****收敛于局部最优解。    DBNs由多个限制玻尔兹曼机(RestrictedBoltzmannMachines)层组成,一个典型的神经网络类型如图三所示。这些网络被“限制”为一个可视层和一个隐层,层间存在连接,但层的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。    首先,先不考虑最顶构成一个联想记忆(associativememory)的两层,一个DBN的连接是通过自顶向下的生成权值来指导确定的,RBMs就像一个建筑块一样,相比传统和深度分层的sigmoid信念网络,它能易于连接权值的学****160;   最开始的时候,通过一个非监督贪婪逐层方法去预训练获得生成模型的权值,非监督贪婪逐层方法被Hinton证明是有效的,并被其称为对比分歧(contrastivedivergence)。    在这个训练阶段,在可视层会产生一个向量v,通过它将值传递到隐层。反过来,可视层的输入会被随机的选择,以尝试去重构原始的输入信号。最后,这些新的可视的神经元激活单元将前向传递重构隐层激活单元,获得h(在训练过程中,首先将可视向量值映射给隐单元;然后可视单元由隐层单元重建;这些新可视单元再次映射给隐单元,这样就获取新的隐单元。执行这种反复步骤叫做吉布斯采样)。这些后退和前进的步骤就是我们熟悉的Gibbs采样,而隐层激活单元和可视层输入之间的相关性差别就作为权值更新的主要依据。    训练时间会显著的减少,因为只需要单个步骤就可以接近最大似然学****增加进网络的每一层都会改进训练数据的对