文档介绍：深度学习
段曹辉

神经网络
这个“神经元”是一个以x1, x2, x3 及截距+1 为输入值,其输出为hW,b(x) = f(WTx) = f(∑Wi*xi +b) ,其中函数 f : 被称为“激活函数”。神经网络算法能够提供一种复杂且非线性的假设模型hW,b(x),它具有参数 W, b ,可以以此参数来拟合我们的数据。
两种常用激活函数的类型:sigmoid函数(左)和正切函数(右)
神经网络模型
圆圈来表示神经网络的输入,标上“+1”的圆圈被称为偏置节点。最左边的一层叫做输入层,最右的叫做输出层,中间叫做隐藏层。
a(l) 表示第 l 层第i单元的激活值。本例神经网络有参数(W,b) = (W(1), b(1), W(2), b(2),其中W(l)ij是第 l 层第 j 单元与第 l + 1 层第 i 单元之间的联接参数。
向量化表示
目标函数----定义拟合的好坏
假设我们有一个固定样本集{(x(1), y(1)), ..., (x(m), y(m)) },它包含m 个样本。我们可以用批量梯度下降法来求解神经网络。
对于单个样例(x,y),其代价函数为:
总的代价函数:
J(W,b)定义中的第一项均方差项,第二项是权重衰减项,其目的是减小权重的幅度,防止过度拟合。
目标是针对参数W和b来求其函数J(W,b)的最小值。为了求解神经网络,我们需要将每一个参数 W(l)ij 和b(l)i 初始化为一个很小的、接近零的随机值,之后对目标函数使用诸如批量梯度下降法的最优化算法。因为J(W,b)是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。
反向传播算法----求解偏导数
梯度下降法中每一次迭代都按照如下公式对参数 W 和 b 进行更新:
α是学习速率,其中关键步骤是计算偏导数。反向传播算法是计算偏导数的一种有效方法。
第一行比第二行多出一项,是因为权重衰减是作用于 W 而不是 b。
利用链式法则求解偏导数
参见PPT-----李宏毅,国立台湾大学,Machine Learning and having it deep and structured (2015,Fall),/~tlkagk/
反向传播算法
求解过程:
自编码算法
自编码神经网络尝试学习一个 hW,b(x) ≈x 的函数。如果我们给隐藏神经元加入稀疏性限制,可以得到输入的稀疏表示。
稀疏自编码器(100个隐藏单元,在10*10像素的输入上训练)进行可视化处理之后的结果。不同的隐藏单元学会了在图像的不同位置和方向进行边缘检测。
从自我学习到深层网络
自编码器来学习输入至分类器的特征。这些特征仅利用未标注数据学习获得。用已标注数据进行微调,从而进一步优化这些特征。如果有大量已标注数据,通过微调就可以显著提升分类器的性能。
首先利用未标注数据训练一个稀疏自编码器,给定一个新样本x,我们通过隐含层提取出特征 a。
我们感兴趣的是分类问题,目标是预测样本的类别标号y。可以利用稀疏自编码器获得的特征a(l)来替代原始特征。这样就可获得训练数据{(a(1),y(1)), ...(a(ml), y(ml)) }。最终,我们训练出一个从特征 a(i)到类标号 y(i) 的分类器。
深度网络:微调
该模型的参数通过两个步骤训练获得:在该网络的第一层,将输入 x 映射至隐藏单元激活量a 的权值W(1) 可以通过稀疏自编码器训练过程获得。在第二层,将隐藏单元a 映射至输出y 的权值W(2) 可以通过 logistic 回归或 softmax 回归训练获得。
微调的作用在于,已标注数据集也可以用来修正权值 W(1),这样可以对隐藏单元所提取的特征a 做进一步调整。