文档名称：

(中文)零基础深度学习.pdf

格式：pdf 大小：2,191KB 页数：73页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

(中文)零基础深度学习.pdf

上传人:1557281760 2017/8/7 文件大小：2.14 MB

下载得到文件列表

(中文)零基础深度学习.pdf

相关文档

文档介绍

文档介绍：目录

[1] Deep learning 简介

[2] Deep Learning 训练过程

[3] CNN 卷积神经网络推导和实现

[4] CNN 的反向求导及练习

[5] CNN 卷积神经网络(一)N

[6] CNN 卷积神经网络(二)文字识别系统-5

[7] CNN 卷积神经网络(N 常见问题总结
苏州大学强化学习讨论班——JHD 编辑整理 1 / 73
[1] Deep learning 简介

一、什么是 Deep Learning?
实际生活中,人们为了解决一个问题,如对象的分类(对象可是是文档、图像等),
首先必须做的事情是如何来表达一个对象,即必须抽取一些特征来表示一个对象,如
文本的处理中,常常用词集合来表示一个文档,或把文档表示在向量空间中(称为 VSM
模型),然后才能提出不同的分类算法来进行分类;又如在图像处理中,我们可以用
像素集合来表示一个图像,后来人们提出了新的特征表示,如 SIFT,这种特征在很多
图像处理的应用中表现非常良好,特征选取得好坏对最终结果的影响非常巨大。因此,
选取什么特征对于解决一个实际问题非常的重要。

然而,手工地选取特征是一件非常费力、启发式的方法,能不能选取好很大程度
上靠经验和运气;既然手工选取特征不太好,那么能不能自动地学习一些特征呢?答
案是能!Deep Learning 就是用来干这个事情的,看它的一个别名 Unsupervised Feature
Learning,就可以顾名思义了,Unsupervised 的意思就是不要人参与特征的选取过程。
因此,自动地学习特征的方法,统称为 Deep Learning。

二、Deep Learning 的基本思想
假设我们有一个系统 S,它有 n 层(S1,…Sn),它的输入是 I,输出是 O,形象
地表示为: I =>S1=>S2=>…..=>Sn => O,如果输出 O 等于输入 I,即输入 I 经
过这个系统变化之后没有任何的信息损失(呵呵,大牛说,这是不可能的。信息论中
有个“信息逐层丢失”的说法(信息处理不等式),设处理 a 信息得到 b,再对 b 处
苏州大学强化学习讨论班——JHD 编辑整理 2 / 73
理得到 c,那么可以证明:a 和 c 的互信息不会超过 a 和 b 的互信息。这表明信息处
理不会增加信息,大部分处理会丢失信息。当然了,如果丢掉的是没用的信息那多好
啊),保持了不变,这意味着输入 I 经过每一层 Si 都没有任何的信息损失,即在任何
一层 Si,它都是原有信息(即输入 I)的另外一种表示。现在回到我们的主题 Deep
Learning,我们需要自动地学习特征,假设我们有一堆输入(如一堆图像或者文本),I
假设我们设计了一个系统 S(有 n 层),我们通过调整系统中参数,使得它的输出仍
然是输入 I,那么我们就可以自动地获取得到输入 I 的一系列层次特征,即 S1,…, Sn。
对于深度学习来说,其思想就是堆叠多个层,也就是说这一层的输出作为下一层
的输入。通过这种方式,就可以实现对输入信息进行分级表达了。
另外,前面是假设输出严格地等于输入,这个限制太严格,我们可以略微地放松
这个限制,例如我们只要使得输入与输出的差别尽可能地小即可,这个放松会导致另
外一类不同的方法。上述就是 Deep Learning 的基本思想。
三、浅层学习(Shallow Learning)和深度学习(Deep
Learning)
浅层学习是机器学习的第一次浪潮。
20 世纪 80 年代末期,用于人工神经网络的反向传播算法(也叫 Back
Propagation 算法或者 BP 算法)的发明,给机器学习带来了希望,掀起了基于统计
模型的机器学习热潮。这个热潮一直持续到今天。人们发现,利用 BP 算法可以让一
个人工神经网络模型从大量训练样本中学习统计规律,从而对未知事件做预测。这种
基于统计的机器学习方法比起过去基于人工规则的系统,在很多方面显出优越性。这
个时候的人工神经网络,虽也被称作多层感知机(Multi-layer Perceptron),但实
际是种只含有一层隐层节点的浅层模型。
苏州大学强化学习讨论班——JHD 编辑整理 3 / 73
20 世纪 90 年代,各种各样的浅层机器学习模型相继被提出,例如支撑向量机
(SVM,Support Vector Machines)、 Boosting、最大熵方法(如 LR,Logistic
Regression)等。这些模型的结构基本上可以看成带有一层隐层节点(如 S