1 / 23
文档名称:

一种防止过拟合的方法.ppt

格式:ppt   大小:798KB   页数:23页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种防止过拟合的方法.ppt

上传人:电离辐射 2022/4/19 文件大小:798 KB

下载得到文件列表

一种防止过拟合的方法.ppt

相关文档

文档介绍

文档介绍:一种防止过拟合的方法
Company Logo
Dropout的模型描述
如图所示,在训练时,节点按照概率P决定是否工作。
在测试时,不使用Dr
一种防止过拟合的方法
Company Logo
Dropout的模型描述
如图所示,在训练时,节点按照概率P决定是否工作。
在测试时,不使用Dropout,但是要按比例的缩放权重,如上图b所示,这样才能保证预期输出与实际输出一致。
Company Logo
Dropout的模型描述
假设一个神经网络有L个隐含层l∈{1,2...L}
标准的前向神经网络是:
其中激活函数
Company Logo
Dropout的模型描述
使用Dropout后:
在测试时的权重进行缩放
Company Logo
Dropout率的选择与训练过程
经过交叉验证,,。
dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大()
Company Logo
Dropout率的选择与训练过程
对参数w的训练进行球形限制,对dropout的训练非常有用。球形半径c是一个需要调整的参数。可以使用验证集进行参数调优。这就叫 max-norm regularization,可以提高随机梯度下降效果
使用pretraining方法也可以帮助dropout训练参数,在使用dropout时,要将所有参数都乘以1/p。这样可以保证dropout的输出与预训练的输出一致
Company Logo
Dropout的部分实验结论
论文中采用的数据集是:
MNIST : 手写体数据
TIMIT : 语音识别的标准语音基因
CIFAR-10 and CIFAR-100 : 自然图像
Street View House Numbers data set (SVHN) : 谷歌街景的房子
ImageNet : 图像数据库
Reuters-RCV1 : 新闻文章的数据库
Company Logo
Dropout的部分实验结论
这里我们只看MNIST
训练集有60000个
测试集为10000个
维度是784(28 *28 grayscale)
所有采用Dropout的网络中
隐含层:P=
输入层:P=
Company Logo
Dropout的部分实验结论
论文中给出的结果
Company Logo
Dropout的部分实验结论
没用Dropout时:
  测试样本错误率:%
使用Dropout时:
  测试样本错误率:%
可以看出使用Dropout后,测试样本的错误率降低了,说明Dropout的泛化能力不错,可以防止过拟合。
训练样本2000个,测试样本1000个
结构是784-100-10
Company Logo
Dropout的部分实验结论
通过调用工具箱中的函数,数据集采用的是手写体数据:
,测试集1000,%,%;
,测试集1000,,,,
,测试集10000,,,,
Company Logo
Dropout的部分实验结论
dropout、max-normalization、large decaying learning rates and high momentum组合起来效果更好。
论文中指出 dropout 与 max-norm regularization 结合可以有更小的泛化误差
Company Logo
进一步了解Dropout
dropout RBM
Company Logo
进一步了解Dropout
Marginalizing Dropout
对于线性回归:
这使得正则常数依赖于P,P减小,正则常数变大
对于Logistic回归:
其dropout相当于加了一个正则化项。
C