1 / 7
文档名称:

神经网络基本知识(共7页).doc

格式:doc   大小:179KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

神经网络基本知识(共7页).doc

上传人:rdwiirh 2022/3/23 文件大小:179 KB

下载得到文件列表

神经网络基本知识(共7页).doc

相关文档

文档介绍

文档介绍:精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
(一)三层神经网络
该模型的参数(或者像共轭梯度下降法,L-BFGS等方法)效果并不好。
梯度弥散问题
梯度下降法(以及相关的L-BFGS算法等)在使用随机初始化权重的深度网络上效果不好的技术原因是:梯度会变得非常小。具体而言,当使用反向传播方法计算导数的时候,随着网络的深度的增加,反向传播的梯度(从输出层到网络的最初几层)的幅度值会急剧地减小。结果就造成了整体的损失函数相对于最初几层的权重的导数非常小。这样,当使用梯度下降法的时候,最初几层的权重变化非常缓慢,以至于它们不能够从样本中进行有效的学****这种问题通常被称为“梯度的弥散”.
与梯度弥散问题紧密相关的问题是:当神经网络中的最后几层含有足够数量神经元的时候,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,对所有层都使用随机初始化的方法训练得到的整个网络的性能将会与训练得到的浅层网络(仅由深度网络的最后几层组成的浅层网络)的性能相似。

逐层贪婪训练方法是训练深度网络取得一定成功的一种方法。简单来说,逐层贪婪算法的主要思路是:
每次只训练网络中的一层,即首先训练一个只含一个隐藏层的网络,仅当这层网络训练结束之后才开始训练一个有两个隐藏层的网络,以此类推。
在每一步中,把已经训练好的前  层固定,然后增加第  层(也就是将已经训练好的前  的输出作为输入)。
每一层的训练可以是有监督的(例如,将每一步的分类误差作为目标函数),但更通常使用无监督方法(例如自动编码器)。
这些各层单独训练所得到的权重被用来初始化最终(或者说全部)的深度网络的权重,然后对整个网络进行“微调”(即把所有层放在一起来优化有标签训练集上的训练误差)。
逐层贪婪的训练方法取得成功要归功于以下两方面:
数据获取
虽然获取有标签数据的代价是昂贵的,但获取大量的无标签数据是容易的。自学****方法的潜力在于它能通过使用大量的无标签数据来学****到更好的模型
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
。具体而言,该方法使用无标签数据来学****得到所有层(不包括用于预测标签的最终分类层) 的最佳初始权重。相比纯监督学****方法,这种自学****方法能够利用多得多的数据,并且能够学****和发现数据中存在的模式。因此该方法通常能够提高分类器的性能。
更好的局部极值
当用无标签数据训练完网络后,相比于随机初始化而言,各层初始权重会位于参数空间中较好的位置上。然后我们可以从这些位置出发进一步微调权重。从经验上来说,以这些位置为起点开始梯度下降更有可能收敛到比较好的局部极值点,这是因为无标签数据已经提供了大量输入数据中包含的模式的先验信息。
(三)卷积特征提取和池化
1)全联通网络
把输入层和隐含层进行“全连接”的设计,从整幅图像中计算特征,从计算的角度来讲,对相对较小的图像是可行的。但是,如果是更大的图像,要通过