1 / 7
文档名称:

数据挖掘经典方法.doc

格式:doc   大小:44KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘经典方法.doc

上传人:tswng35 2022/7/9 文件大小:44 KB

下载得到文件列表

数据挖掘经典方法.doc

相关文档

文档介绍

文档介绍:. .
优选
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。
logistic回归分析
Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。
Logistic回归分析的主要用途:
一是寻找危险因素
正如上面所说的寻找某一疾病的危险因素等。
二是预测
如果已经建立了logistic回归模型,那么可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
三是判别
根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
聚类分析
聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
. .
优选
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进展分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进展聚类分析,所得到的聚类数未必一致。
它可以应用到客户群体的分类、客户背景分析、客户购置趋势预测、市场的细分等。
聚类分析法有K-means cluster analysis快速聚类、Hierarchical Cluster Analysis系统聚类。

要求事先确定分类。它不仅要求确定分类的类数,而且你还需要事先确定点,也就是聚类种子,然后,根据其他点离这些种子的远近把所有点进展分类。再然后就是将这几类的中心〔均值〕作为新的基石,再分类。如此迭代。

系统聚类是将样品分成假设干类的方法,其根本思想是:先将每个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止。
关联规那么
关联规那么是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规那么的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频工程组;第二极端为从这些高频工程组产生关联规那么。关联规那么挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机