文档介绍:机器学****算法之旅在理解了我们需要解决的机器学****问题之后,我们可以思考一下我们需要收集什么数据以及我们町以用什么算法。本文我们会过一遍最流行的机器学****算法,大致了解哪些方法可用,很有帮助。机器学****领域有很多算法,然后每种算法乂有很多延伸,所以对于一个特定问题,如何确定一个正确的算法是很困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。学****方式根据如何处理经验、坏境或者任何我们称之为输入的数据,算法分为不同种类。机器学****和人工智能课木通常先考虑算法可以适应的学****方式。这里只讨论儿个主要的学****风格或学****模型,并R冇儿个基本的例了。这种分类或者组织的方法很好,因为它迫使你去思考输入数据的角色和模型准备的过程,然后选择-个最适合你的问题的算法,从而得到最佳的结果。•监督学****输入数据被称为训练数据,并且有己知的结果或被标记。比如说一封邮件是否是垃圾邮件,或者说一段时间内的股价。模型做出预测,如來错了就会被修正,这个过程一直持续到对于训练数据它能够达到一定的正确标准。问题例了包括分类和I叫归问题,算法例子包括逻辑I叫归和反向神经网络。•无监督学****输入数据没有被标记,也没有确定的结果。模型対数据的结构和数值进行归纳。问题例子包括Associationrulelearning和聚类问题,算法例子包括Apriori算法和K■均值算法。•半监督学****输入数据是被标记的和不被标记的数据的混合,冇一些预测问题但是模型也必须学****数据的结构和组成。问题例子包括分类和I叫归问题,算法例子基本上是无监督学****算法的延伸。•增强学****输入数据可以刺激模型并且使模型做出反应。反馈不仅从监督学****的学****过程中得到,还从环境中的奖励或惩罚中得到。问题例子是机器人控制,算法例了包括Q-learning以及Temporaldifferencelearning。当整合数据模拟商业决策时,人多数会用到监督学****和无监督学****的方法。当下一个热门话题是半监督学****比如图像分类问题,这中问题中有一个大的数据库,但是只有一小部分图片做了标记。增强学****多半还是用在机器人控制和其他控制系统的开发上。算法相似性算法基本上从功能或者形式上来分类。比如,基于树的算法,神经网络算法。这是一个很冇用的分类方式,但并不完美。因为有许多算法可以轻易地被分到两类中去,比如说LearningVectorQuantization就同时是神经网络类的算法和基于实例的方法。正如机器学****算法本身没有完美的模型一样,算法的分类方法也没有完美的。在这一部分我列出了我认为最肓观的方法归类的算法。我并没有穷尽算法或者分类方法,但是我想对于让读者有一个大致了解很有帮助。如果有你了解的我没有列出來,欢迎留言分亨。现在我们开始!RegressionRegression(|n|归分析)关心的是变量之间的关系。它应川的是统计方法,儿个算法的例子包括:OrdinaryLeastSquaresLogisticRegressionStepwiseRegressionMultivariateAdaptiveRegressionSplines(MARS)LocallyEstimatedScatterplotSmoothing(LOESS)Instance-basedMethodsInstancebasedlearning(基于实例的学****模拟了一个决策问题