文档介绍:首先,附上百度业务运营部_数据分析师(产品运营)岗位的招聘详情:
      
业务运营部_数据分析师(产品运营)
所属部门: 百度 工作地点: 北京市 招聘人数: 若干公       司: 百度 职位类别: 产品 发布时间: 201树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法。所分析的数据样本是集成为一个树根,经过层层分枝,最终形成若干个节点,每个节点代表一个结论。
聚类:将观察对象的群体按照相似性和相异性进行不同群组的划分。
聚类分析的算法有:划分的方法(K-means)、层次的方法(依次让最相似的数据对象两两合并)、基于密度的方法、基于网格的方法、基于模型的方法。
1)(分类算法)
,它是决策树核心算法ID3的改进算法。决策树构造方法就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。ID3以信息熵和信息增益度为衡量的标准,从而实现对数据的归纳分类。ID3计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。。在树构造过程中进行剪枝,在构造决策树的时候,对于那些挂着几个元素的节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,寻找一个代替数据来填充。
:产生的分类易于理解,准确率高;
缺点:a)构造树过程中,需对数据集进行多次的顺序扫描和排序,导致算法低效;
b)只适合于能够驻留于内存的数据集,当数据集大得无法再内存中容纳时,程序无法运行。
2)CART(Classification and Regression Tree,分类与回归树)(分类算法)
CART也是一种决策树算法,着眼于总体优化。相对于那些实现一个节点下面有多个子树的多元分类,CART只是分类两个子树,这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。
3)KNN(K Nearest Neighbours,K最邻近) (分类算法)
从训练样本中找出K个与其最相近的样本,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,则待判定的值(或:抽样)就属于这个类别。
缺点:a)K值需要预先设定,不能自适应;
b)当样本不平衡时,如某个类的样本容量很大,而其他类样本量小时,可能导致输入的新样本的K个邻居中大容量的样本占多数。
该算法适用于样本容量较大的类域进行自动分类。
4)Naive Bayes(朴素贝叶斯NB) (分类算法)
是基于贝叶斯定理和特征条件独立假设的分类方法。它的基础是概率问题。分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即:该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
5)Support Vector Machine(支持向量机SVM) (统计学****算法)
SVM是基于分类边界的方法。就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远),将空间中的点按其分类聚集在不同