1 / 4
文档名称:

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf

格式:pdf   大小:185KB   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf

上传人:深秋盛开的金菊 2021/10/29 文件大小:185 KB

下载得到文件列表

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf

相关文档

文档介绍

文档介绍:Spark ML算法简单介绍
一、 线性回归算法
线性回归( Linear Regression),数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系
的一种统计分析方法,其表达形式为 y = w'x+e ,e 为误差服从均值为 0 的正态分布,其中只有一个自变量的
情况称为简单回归,多个自变量的情况叫多元回归。
这个例子中近简化使用房屋面积一个因子作为自变量, y 轴对应其因变量房屋价格。所以我们机器学****的线
性回归就变为对于给定有限的数据集,进行一元线性回归,即找到一个一次函数 y=y(x) + e ,使得 y 满足
当 x={2104, 1600, 2400, 1416, 3000, ... }, y={400, 330, 369, 232, 540, ... } 如下图所示:
至于公式的求解,大家可以自己去看一下源码或者方程求解,这里就不讲解了。
二、 逻辑回归算法
logistic 回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然
后使用函数 g(z)将最为假设函数来预测。 g(z)可以将连续值映射到 0 和 1 上。
它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到 0 和 1
之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这个范围还有个很好的好
处,就是可以消除特别冒尖的变量的影响。
三、 贝叶斯分类算法
贝叶斯定理
贝叶斯定理解决的是这样一个问题:已知在事件 B 发生的条件下,事件 A 的发生概率 P(A|B) ,怎样得到事
件 A 发生的条件下,事件 B 的发生概率 P(B|A) ?贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。
P(B|A) = P(A|B) × P(B) / P(A)
举例说明,假设已经有了 100 个 email,其中:
垃圾邮件占比 60%,即 P(Spam) =
80%的垃圾邮件包含关键字“ buy”,即 P(Buy|Spam) =
20%的垃圾邮件不包含