文档名称：

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf

格式：pdf 大小：185KB 页数：4页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf

上传人:深秋盛开的金菊 2021/10/29 文件大小：185 KB

下载得到文件列表

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf

相关文档

文档介绍

文档介绍：Spark ML算法简单介绍
一、线性回归算法
线性回归（ Linear Regression），数理统计中回归分析，用来确定两种或两种以上变量间相互依赖的定量关系
的一种统计分析方法，其表达形式为 y = w'x+e ，e 为误差服从均值为 0 的正态分布，其中只有一个自变量的
情况称为简单回归，多个自变量的情况叫多元回归。
这个例子中近简化使用房屋面积一个因子作为自变量， y 轴对应其因变量房屋价格。所以我们机器学****的线
性回归就变为对于给定有限的数据集，进行一元线性回归，即找到一个一次函数 y=y(x) + e ，使得 y 满足
当 x={2104, 1600, 2400, 1416, 3000, ... }, y={400, 330, 369, 232, 540, ... } 如下图所示：
至于公式的求解，大家可以自己去看一下源码或者方程求解，这里就不讲解了。
二、逻辑回归算法
logistic 回归本质上是线性回归，只是在特征到结果的映射中加入了一层函数映射，即先把特征线性求和，然
后使用函数 g(z)将最为假设函数来预测。 g(z)可以将连续值映射到 0 和 1 上。
它与线性回归的不同点在于：为了将线性回归输出的很大范围的数，例如从负无穷到正无穷，压缩到 0 和 1
之间，这样的输出值表达为“可能性”才能说服广大民众。当然了，把大值压缩到这个范围还有个很好的好
处，就是可以消除特别冒尖的变量的影响。
三、贝叶斯分类算法
贝叶斯定理
贝叶斯定理解决的是这样一个问题：已知在事件 B 发生的条件下，事件 A 的发生概率 P(A|B) ，怎样得到事
件 A 发生的条件下，事件 B 的发生概率 P(B|A) ？贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。
P(B|A) = P(A|B) × P(B) / P(A)
举例说明，假设已经有了 100 个 email，其中：
垃圾邮件占比 60%，即 P(Spam) =
80%的垃圾邮件包含关键字“ buy”，即 P(Buy|Spam) =
20%的垃圾邮件不包含