1 / 20
文档名称:

如何选择机器学习项目的算法.ppt

格式:ppt   大小:992KB   页数:20页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

如何选择机器学习项目的算法.ppt

上传人:分享精品 2017/8/8 文件大小:992 KB

下载得到文件列表

如何选择机器学习项目的算法.ppt

相关文档

文档介绍

文档介绍:如何选择机器学****项目的算法
随着机器学****的进一步火热,越来越多的算法已经可以用在许多任务的执行上,并且表现出色。
但是动手之前到底哪个算法可以解决我们特定的实际问题并且运行效果良好,这个答案很多新手是不知道的。
如果你处理问题时间可以很长,你可以逐个调研并且尝试它们,反之则要在最短的时间内解决技术调研任务。
Michael Beyeler的一篇文章告诉我们整个技术选型过程,一步接着一步,依靠已知的技术,从模型选择到超参数调整。
第1步:了解基本知识
在我们深入之前,我们要明确我们了解了基础知识。具体来说,我们应该知道有三个主要的机器学****分类:监督学****supervised learning)、无监督学****unsupervised learning),以及强化学****reinforcement learning)。
监督学****每个数据点被标记或者与一个类别或者感兴趣值相关联。分类标签的一个例子是将图像指定为“猫”或者“狗”。价值标签的一个例子是销售价格与二手车相关联。监督学****的目标是研究许多这样的标记示例,进而能够堆未来的数据点进行预测,例如,确定新的照片与正确的动物(分类(classification))或者指定其他二手车的准确销售价格(回归(regression))。
无监督学****数据点没有标签对应。相反,一个无监督学****算法的目标是以一些方式组织数据或者表述它的结构。这意味着将其分组到集群内部,或者寻找不同的方式查看复杂数据,使其看起来更简单。
强化学****对应于每一个数据点,算法需要去选择一个动作。这是一种常见的机器人方法,在一个时间点的传感器读数集合是一个数据点,算法必须选择机器人的下一个动作。这也是很普通的物联网应用模式,学****算法接收一个回报信号后不久,反馈这个决定到底好不好。基于此,算法修改其策略为了达到更高的回报。
第2步:对问题进行分类
下一步,我们要对手头上的问题进行分类。这是一个两步步骤:
通过输入分类:如果我们有标签数据,这是一个监督学****问题。如果我们有无标签数据并且想要去发现结构,这是一个无监督学****问题。如果我们想要通过与环境交互优化目标函数,这是一个强化学****问题。
通过输出分类:如果一个模型的输出是一个数字,这是一个回归问题。如果模型的输出是一个类(或者分类),这是一个分类问题。如果模型的输出是输入组的集合,这是一个分类问题。
就是那么简单。总而言之,我们可以通过问自己算法需要解决什么问题,进而发现算法的正确分类。
上面这张图包含了一些我们还没有讨论的技术术语:
分类(Classification):当数据被用来预测一个分类,监督学****也被称为分类。这是一个例子当指定一张相作为“猫”或“狗”的图片。当只有两种选择时,称为二类(two-class)或二项式分类(binomial classification)。当有更多类别的时候,当我们预测下一个诺贝尔物理学奖得住,这个问题被称为多项式分类(multi-class classification)。
回归(Regression):当一个值被预测时,与股票价格一样,监督学****也被称为回归。
聚类(Clustering):非监督学****最常用的方法是聚类分析或者聚类。聚类是一组对象组的任务,在这样的一种方式下,在同一组中的对象(称为集群)是更加相似的(在某一种意义上),相比其他组(集群)里的对象。
异常检测(Anomaly detection):需要在目标里找到不寻常的数据点。在欺诈检测里,例如,任何非常不寻常的信用卡消费模式都是可以的。可能的变化很多,而训练示例很少,这看起来不是一种可行方式了解欺诈活动。异常检测需要的方法是简单地了解什么是正常的活动(使用非欺诈交易历史记录),并且确定明显不同的内容。
现在我们有分类问题,我们可以使用工具去调研和验证算法是可行的和可实践的。
Microsoft Azure已经创建了一个方便的算法表格,这个表格显示算法可以被用于哪些问题分类。虽然这个表格是针对Azure软件,它一般适用于:
第3步:找到可用的算法
一些值得关注的算法是:
分类(Classification):
支持向量机(SVM):通过尽可能宽的边缘方式发现分离类的边界。当二分式不能清晰的切分时,算法找到最好的边界。这个算法真正的亮点是强烈的数据特征,好像文本或者染色体组(>100特性)。在这些情况下,SVMs比其许多其他算法更快递切分二项,也更少地过度拟合,除了需要少量的内存。
人工神经网络(Artificial works):是大脑启发学****算法,覆盖多项式分类、二项式分类,以及回归问题。它们带来了无限的多样性,包括感知和深度学****它们花费很长时间进行训练,但是带来各种应用领域的先进性能。
逻辑回归(Logistic