文档介绍：机器学****算法介绍基本概念分类监督式学****多轮学****以达到目的:实现回归或分类非监督式学****特定方法实现聚类。(由于目的性不明确,所以一般没有多轮)强化学****不断学****永无止境分类算法适用因变量为离散变量回归算法适用因变量为连续变量聚类和分类的差别聚类:无限种类别可能分类:有限种类别可能监督式学****工作机制这个算法由一个目标变量或结果变量(或因变量)组成。此变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。例子线性回归,决策树,SVM,K–近邻算法,逻辑回归等非监督式学****工作机制没有任何目标变量或结果变量要预测或估计。用在不同的组内聚类分析。例子关联算法,K–均值算法强化学****工作机制训练机器进行决策。机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学****并且尝试利用了解最透彻的知识作出精确的判断。例子马尔可夫决策过程十大机器学****算法1、线性回归2、逻辑回归3、决策树4、SVM5、朴素贝叶斯6、k-Means算法7、kNN算法8、Apriori算法9、最大期望算法(EM)10、PageRank监督式学****与非监督式学****的差别监督式学****方法,要求:事先明确知道各个类别的信息所有待分类项都有一个类别与之对应如果不能满足上述两个条件(例如有海量数据),则需适用聚类算法,即非监督式学****监督式学****非监督式学****线性回归逻辑回归决策树朴素贝叶斯SVMKNNK-meansAprioriEMPageRank线性回归适用场景根据连续变量估计实际数值(房价、呼叫次数、总销售额等)。原理可通过拟合最佳直线来建立自变量和因变量的关系。拟合结果是条直线Y=a*X+b:其中Y是因变量,a是斜率,x是自变量,b是截距最佳直线叫做回归线。系数a和b通过最小二乘法获得。Python代码fromsklearnimportlinear_modelx_train=input_variables_values_training_datasetsy_train=target_variables_values_training_datasetsx_test=input_variables_values_test_datasetslinear=()(x_train,y_train)(x_train,y_train)线性回归针对线性回归容易出现欠拟合的问题,采取局部加权线性回归。在该算法中,赋予预测点附近每一个点以一定的权值,,即近点的权值大,远点的权值小,k为波长参数,控制了权值随距离下降的速度,越大下降的越快。线性回归针对数据的特征比样本点多的问题:一、岭回归二、前向逐步回归