文档介绍：-
. z.
数据挖掘最常见的十种方法
下面介绍十种数据挖掘〔Data Mining〕的分析方法，以便于大家对模型的初步了解，这些都是日常挖掘中经常遇到的算法，希望对大家有用！〔甚人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。
8、神经网络〔Neural Networks〕
神经网络是以重复学****的方法，将一串例子交与学****使其归纳出一足以区分的样式。假设面对新的例证，神经网络即可根据其过去学****的成果归纳后，推导出新的结果，乃属于机器学****的一种。数据挖掘的相关问题也可采类神经学****的方式，其学****效果十分正确并可做预测功能。
9、判别分析〔Discriminant Analysis〕
当所遭遇问题它的因变量为定性〔categorical〕，而自变量〔预测变量〕为定量〔metric〕时，判别分析为一非常适当之技术，通常应用在解决分类的问题上面。假设因变量由两个群体所构成，称之为双群体 —判别分析〔Two-Group Discriminant Analysis〕；假设由多个群体构成，则称之为多元判别分析〔Multiple Discriminant Analysis；MDA〕。〔1〕找出预测变量的线性组合，使组间变异相对于组变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。〔
-
. z.
2〕检定各组的重心是否有差异。〔3〕找出哪些预测变量具有最大的区别能力。〔4〕根据新受试者的预测变量数值，将该受试者指派到*一群体。
10、罗吉斯回归分析〔Logistic Analysis〕
当判别分析中群体不符合正态分布假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件〔event〕是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开场减小，故机率值介于0与1之间。
补充：
常用数据挖掘算法
频繁模式挖掘，关系挖掘，以及相互关系挖掘
所谓频繁模式挖掘，指的是比方在商品交易数据库记录中，找出一起出现的商品集合，这些商品集合出现的频率要高于一个阈值，这些经常出现的商品集合称之为频繁模式。
频繁模式的思路很简单，首先统计出每个单个商品出现的次数，这就构成了一个一维表。然后再根据一维表，商品两两组合产生一个二维表。然后再由二维表产生三维表，直至到n维表。其中可以利用apriori，进展剪枝，也就是说一维表中如果出现的频率低于阈值的商品，就可以直接去掉，应为包含该商品的高维商品集合的出现频率不可能高于该阈值，可以直接剪枝去掉。
频繁模式挖掘还有一种更加高效的方式，就是FP Growth，该方法通过扫描一遍数据库，在存中构造一颗FP tree，基于这棵树就可以产生所有的频繁模式。很显然FP Growth算法的效率要高很多，但是其缺陷也很明显，在存中维护一颗FP tree的开销也是很大的。为了解决这个问题，一个直接的思路是将数据库水平分表到各台机器上，在各台机器上执行本地的FP Growth，然后再将各台机器上的结果汇总起来，得到最终的FP Growth的结果。
所