文档介绍：SQL Server数据挖掘算法及应用实例
一、算法概述
SQL Server 2005 中Analysis Services包括了以下算法类型:
分类算法:基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是Microsoft决策树算法。
回归算法:基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是Microsoft时序算法。
分割算法:将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是Microsoft聚类分析算法。
关联算法:查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是Microsoft关联算法。
顺序分析算法:汇总数据中的常见顺序或事件,如Web路径流。顺序分析算法的一个示例是Microsoft顺序分析和聚类分析算法。
应用算法:
为特定的业务任务选择正确的算法很重要,可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。
算法不必独立使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。
下表给出了可为特定的任务使用哪些算法的建议。
任务
可使用的Microsoft算法
预测离散属性。例如,预测目标邮件活动的收件人是否会购买某个产品。
Microsoft决策树算法
MicrosoftNaiveBayes算法
Microsoft聚类分析算法
Microsoft神经网络算法(SSAS)
预测连续属性。例如,预测下一年的销量。
Microsoft决策树算法
Microsoft时序算法
预测顺序。例如,执行公司网站的点击流分析。
Microsoft顺序分析和聚类分析算法
查找交易中的常见项的组。例如,使用市场篮分析来建议客户购买其他产品。
Microsoft关联算法
Microsoft决策树算法
查找相似项的组。例如,将人口统计数据分割为组以便更好地理解属性之间的关系。
Microsoft聚类分析算法
Microsoft顺序分析和聚类分析算法
二、算法应用实例
分类算法及应用实例
实例背景
Adventure Works为一自行车销售公司,主营各种类自行车及相关配件的生产、销售。其市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。
此外,市场部还希望在公司数据库的现有客户当中发现所有逻辑分组,例如具有相似的人数统计标准和购买模式的客户。
公司的数据库Adventure WorksDW中包含一个现有客户列表和一个潜在的新客户列表。
在实例中,将创建一个目标邮件方案。完成本实例中的任务之后,您便会具有:
(1)一组挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。
(2)当前客户的聚类分析。
本例中的分类算法采用决策树算法、聚类算法、朴素贝叶斯算法三种算法,并通过算法准确度比较,选取准确性最高的算法用于预测潜在客户。
分类算法

Microsoft决策树算法是一种适合预测性建模的分类算法。该算法支持离散属性和连续属性的预测。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。例如,在预测哪些客户可能购买自行车的方案中,假如在十名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车,则该算法从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。
对于连续属性,该算法使用线性回归确定决策树的拆分位置。
如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一个决策树。算法的原理及使用详见附录1。
聚类算法
Microsoft聚类分析算法运用迭代技术将来自数据集的记录分成多个分类,其中每个分类包含类似的特征。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。
聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。聚类分析算法不同于 Microsoft 决策树算法等其他数