文档名称：

百度业务运营部数据分析岗位分析.docx

格式：docx 大小：16KB 页数：3页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

百度业务运营部数据分析岗位分析.docx

上传人:guoxiachuanyue007 2022/7/28 文件大小：16 KB

下载得到文件列表

百度业务运营部数据分析岗位分析.docx

相关文档

文档介绍

文档介绍：首先，附上百度业务运营部_数据分析师（产品运营）岗位的招聘详情：
业务运营部_数据分析师（产品运营）
所属部门:百度工作地点:北京市招聘人数:若干公司:百度职位类别:产品发布时
间:2016-04-11
工作职责:-对百度重点行业的来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。
3）KNN（KNearestNeighbours，K最邻近）（分类算法）
从训练样本中找出K个与其最相近的样本，是Top-K个训练样本出来，看这K个样本中哪个类别的多些，则待判定的值（或：抽样）就属于这个类别。
缺点：a）K值需要预先设定，不能自适应；
b）当样本不平衡时，如某个类的样本容量很大，而其他类样本量小时，可能导致输入的新样本的K个邻居中大容量的样本占多数。
该算法适用于样本容量较大的类域进行自动分类。
4）NaiveBayes（朴素贝叶斯NB）（分类算法）
是基于贝叶斯定理和特征条件独立假设的分类方法。它的基础是概率问题。分类原理：通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即：该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。
5）SupportVectorMachine（支持向量机SVM）（统计学****算法）
SVM是基于分类边界的方法。就是想找一个分类得最”好”的分类线/分类面（最近的一些两类样本到这个”线”的距离最远），将空间中的点按其分类聚集在不同的区域。常用的工具包是LibSVM、SVMLight、MySVMo原理：将低维空间的点映射到高维空间，使它们成为线性可分，再使用线性划分原理来判断分类边界。
6）EM（期望最大化）（统计学****算法）
基于模型的聚类方法，在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。例如：假设数据是由几个高斯分布组成的，所以最后就是要求几个高斯分布的参数。通过先假设几个值，然后通过反复迭代，以期望得到最好的拟合。
优点：计算结果稳定、准确；缺点：计算复杂、收敛慢，不适合大规模计算。
7）Apriori（关联分析）一种挖掘关联规则的算法，用于挖掘其内含的、未知的却又实际存在的数据关系。不知道为什么，一提高关联规则我就想到购物篮数据。核心：基于两阶段频集思想的递推算法。
两个阶段：a）寻找频繁项集；（支持度）
b）由频繁项集找出关联规则。（可信度）
缺点：a）在每一步产生候选项集时，循环产生的组合过多，没有排除不应参与组合的元素；
b）每次计算项集的支持度时，都对数据库的全部记录进行了一遍扫描比较，需要很大的I/O负载。
8）PageRank（数据挖掘）
是GOOGLE的页面排序算法，基于从许多优质的网页链接过来的网页，必定是优质网页的回归关系，来判定网页的重要性。例如：如果我指向你（网页间的连接）则表示我承认你，则在计算你的重要性的时候可以加上我的一部分重要性（到底多少，要看我自己有多少和我共承认多少个人）。通过反复这样来，可以求的一个稳定的衡量各个人（网页）重要性的值。不过这里必须要做些限制（一个人的开始默认重要性都是1），不然那些值会越来越大越来越大。
优点：完全独立于查询，只依赖于网页链接结构，可离线计算；
缺点：a）忽略了网页搜索的时效性；
b）旧网页的排序高、存在时间长，积累了大量的in-links