文档介绍：10种机器学****算法介绍
1
整理ppt
基本概念分类
监督式学****br/>多轮学****以达到目的：实现回归或分类
非监督式学****br/>特定方法实现聚类。（由于目的性不明确，所以一般没有多轮）
强化学****br/>不断学****永无止境
分类算法
适用因变量为连续变量
回归算法
适用因变量为离散变量
聚类和分类的差别
聚类：无限种类别可能
分类：有限种类别可能
2
整理ppt
监督式学****br/>工作机制
这个算法由一个目标变量或结果变量（或因变量）组成。
此变量由已知的一系列预示变量（自变量）预测而来。
利用这一系列变量，我们生成一个将输入值映射到期望输出值的函数。
这个训练过程会一直持续，直到模型在训练数据上获得期望的精确度。
例子
回归，决策树，随机森林，K – 近邻算法，逻辑回归等
3
整理ppt
非监督式学****br/>工作机制
在这个算法中，没有任何目标变量或结果变量要预测或估计。
这个算法用在不同的组内聚类分析。
这种分析方式被广泛地用来细分客户，根据干预的方式分为不同的用户组。
例子
关联算法， K – 均值算法
4
整理ppt
强化学****br/>工作机制
这个算法训练机器进行决策。
机器被放在一个能让它通过反复试错来训练自己的环境中。
机器从过去的经验中进行学****并且尝试利用了解最透彻的知识作出精确的商业判断。
（好虚。。。。）
例子
马尔可夫决策过程
5
整理ppt
监督式学****与非监督式学****的差别
监督式学****方法，要求：
事先明确知道各个类别的信息
所有待分类项都有一个类别与之对应
如果不能满足上述两个条件（例如有海量数据），则需适用聚类算法，即非监督式学****br/>监督式学****br/>非监督式学****br/>线性回归
逻辑回归
决策树
朴素贝叶斯
SVM
KNN
K-MEANS
随机森林
降维算法
Gradient Boosting 和 AdaBoost 算法
大数据
6
整理ppt
线性回归
适用场景
根据连续变量估计实际数值（房价、呼叫次数、总销售额等）。
原理
可通过拟合最佳直线来建立自变量和因变量的关系。拟合结果是条直线 Y= a *X + b：其中Y是因变量，a是斜率，x是自变量，b是截距
最佳直线叫做回归线。系数 a 和 b 通过最小二乘法获得。
R语言代码
# Train the model using the training sets and check score
linear <- lm(y_train ~ x_train)
summary(linear)
#Predict Output
predicted= predict(linear,x_test)
假设在不问对方体重的情况下，让一个五年级的孩子按体重从轻到重的顺序对班上的同学排序，你觉得这个孩子会怎么做？他（她）很可能会目测人们的身高和体型，综合这些可见的参数来排列他们。这是现实生活中使用线性回归的例子。
7
整理ppt
逻辑回归
适用场景
该算法可根据已知的一系列因变量估计离散数值的出现概率。
原理
这是一个分类算法而不是一个回归算法。
从数学上看，在结果中，几率的对数使用的是预测变量的线性组合模型。
ln(p/(1-p)) = b0+b1*X1+b2*X2+b3*X3....+bk*Xk
R语言代码
假设你的朋友让你解开一个谜题。这只会有两个结果：你解开了或是你没有解开。想象你要解答很多道题来找出你所擅长的主题。这个研究的结果就会像是这样：假设题目是一道十年级的三角函数题，你有 70%的可能会解开这道题。然而，若题目是个五年级的历史题，你只有30%的可能性回答正确。这就是逻辑回归能提供给你的信息。
# Train the model using the training sets and check score
logistic <- glm(y_train ~ ., data = x,family='binomial')
summary(logistic)
#Predict Output
predicted= predict(logistic,x_test)
8
整理ppt
决策树
使用场景
这个监督式学****算法通常被用于分类问题。
它同时适用于分类变量和连续因变量。
原理
在这个算法中，我们将总体分成两个或更多的同类群。
这是根据最重要的属性或者自变量来分成尽可能不同的组别。
R语言代码
library(rpart)
x <- cbind(x_train,y_train)
# grow tree
fit <- rpart(y_train ~ ., data = x,method="class")
summary(fit)
#Pre