1 / 3
文档名称:

百度业务运营部数据分析岗位分析.docx

格式:docx   大小:16KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

百度业务运营部数据分析岗位分析.docx

上传人:guoxiachuanyue007 2022/7/28 文件大小:16 KB

下载得到文件列表

百度业务运营部数据分析岗位分析.docx

相关文档

文档介绍

文档介绍:首先,附上百度业务运营部_数据分析师(产品运营)岗位的招聘详情:
业务运营部_数据分析师(产品运营)
所属部门:百度工作地点:北京市招聘人数:若干公司:百度职位类别:产品发布时
间:2016-04-11
工作职责:-对百度重点行业的来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。
3)KNN(KNearestNeighbours,K最邻近)(分类算法)
从训练样本中找出K个与其最相近的样本,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,则待判定的值(或:抽样)就属于这个类别。
缺点:a)K值需要预先设定,不能自适应;
b)当样本不平衡时,如某个类的样本容量很大,而其他类样本量小时,可能导致输入的新样本的K个邻居中大容量的样本占多数。
该算法适用于样本容量较大的类域进行自动分类。
4)NaiveBayes(朴素贝叶斯NB)(分类算法)
是基于贝叶斯定理和特征条件独立假设的分类方法。它的基础是概率问题。分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即:该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
5)SupportVectorMachine(支持向量机SVM)(统计学****算法)
SVM是基于分类边界的方法。就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远),将空间中的点按其分类聚集在不同的区域。常用的工具包是LibSVM、SVMLight、MySVMo原理:将低维空间的点映射到高维空间,使它们成为线性可分,再使用线性划分原理来判断分类边界。
6)EM(期望最大化)(统计学****算法)
基于模型的聚类方法,在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。例如:假设数据是由几个高斯分布组成的,所以最后就是要求几个高斯分布的参数。通过先假设几个值,然后通过反复迭代,以期望得到最好的拟合。
优点:计算结果稳定、准确;缺点:计算复杂、收敛慢,不适合大规模计算。
7)Apriori(关联分析)一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系。不知道为什么,一提高关联规则我就想到购物篮数据。核心:基于两阶段频集思想的递推算法。
两个阶段:a)寻找频繁项集;(支持度)
b)由频繁项集找出关联规则。(可信度)
缺点:a)在每一步产生候选项集时,循环产生的组合过多,没有排除不应参与组合的元素;
b)每次计算项集的支持度时,都对数据库的全部记录进行了一遍扫描比较,需要很大的I/O负载。
8)PageRank(数据挖掘)
是GOOGLE的页面排序算法,基于从许多优质的网页链接过来的网页,必定是优质网页的回归关系,来判定网页的重要性。例如:如果我指向你(网页间的连接)则表示我承认你,则在计算你的重要性的时候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承认多少个人)。通过反复这样来,可以求的一个稳定的衡量各个人(网页)重要性的值。不过这里必须要做些限制(一个人的开始默认重要性都是1),不然那些值会越来越大越来越大。
优点:完全独立于查询,只依赖于网页链接结构,可离线计算;
缺点:a)忽略了网页搜索的时效性;
b)旧网页的排序高、存在时间长,积累了大量的in-links