1 / 16
文档名称:

金融数据挖掘.docx

格式:docx   大小:2,850KB   页数:16页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

金融数据挖掘.docx

上传人:阿宁 2022/5/16 文件大小:2.78 MB

下载得到文件列表

金融数据挖掘.docx

相关文档

文档介绍

文档介绍:High quality manuscripts are welcome to download
金融数据挖掘
金融数据挖掘论文
院系: 理学院
专业班级: 信息与计算科学132班
学结果中选择一个较大的簇,继续使用K-均值算法进行分裂操作,直到得到K个簇,算法终止。
二分K-均值算法步骤如下:
输入:训练数据集D,二分次数m,目标簇数k。
输出:簇集N={N1,N2……,Nk}。
(1)初始化簇集S,它只含一个包含所有样本的簇N,将簇数K’初始化为1;
(2)从S中取出一个最大的簇Ni;
(3)使用K-均值聚类算法对簇Ni进行m次二分聚类操作;
(4)分别计算这m对子簇的总SSE的大小,将具有最小总SSE的一对子簇添加到S中,执行K’++操作;
(5)如果K’=K,算法结束。否则重复(2)到(5)步骤。
算法使用误差平方和SSE最为聚类的评价函数,对于二分K-均值聚类算法是各个步骤都是只有2个簇中心,因此相对于基本K-均值算法而言,更不易受到簇中心初始化问题的影响。二分K-均值算法中各步找出SSE之和最小的一对子簇N1和N2:
J=xi∈N1xi-m1*2+xi∈N2xi-m2*2
在二分K-均值算法中,使用误差平方和和度量聚类的质量的好坏,具体的操作是对各个样本点的误差采取欧几里德距离进行计算,然后计算误差平方和。二分K-均值算法没有初始化的问题,每一步操作实际上就是从m对子簇中找到误差平方和最小的一对子簇,然后再进行基本的K-均值操作。
BIRCH算法
Zhang 等人提出了Birch(Blanced Iterative Reducing and Clustering)[1] 算法来对大规 模数据集进行聚类。Birch 算法是一种非常有效的、传统的层次聚类算法,该算法能够用一 遍扫描有效地进行聚类,并能够有效地处理离群点。Birch 算法是基于距离的层次聚类,综 合了层次凝聚和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改 进结果。[2]层次凝聚是采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些 原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中,或某个终结条件被满足。
Birch 算法的主要思想是:通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。
CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。 其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。比如给定一个由二维点组成的集合{(3,4),(2,6),(4,5)},那么CF 结构概括了簇的基本信息,并且是高度压缩的,它存储了小于实际数据点的聚类信息。同时CF 的三元结构设置使得计算簇的半径、簇的直径、簇与簇之间的距离等非常容易。
Birch 算法主要分为以下两个阶段:
(1) 扫描数据库,动态的建立一棵存放在内存的CF 树。若内存不够,则增大阈值,在 原树基础上构造一棵较小的树。
(2) 对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇 的大小,并且数据的输入顺序也会影响到聚类结果。因此,需要对叶节点进一步利用一个全 局性的聚类算法,改进聚类质量。
基于密度的聚类算法
DBSCAN(Density-based Spatial Clustering of Applications with Noise)
是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。
DBSCAN中的的几个定义:
Ε领域:给定对象半径为Ε内的区域称为该对象的Ε领域
核心对象:如果给定对象Ε领域内的样本点数大于等于MinPts,则称该对象为核心对象。
直接密度可达:对于样本集合D,如果样本点q在p的Ε领域内,并且p为核心对象,那么对象q从对象p直接密度可达。
密度可达:对于样本集合D,给定一串样本点p1,p2….pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。
密度相连:对于样本集合D中的任意一点O,如果存在对象p到对象o密度可达,并且对象q到对象o密度可达,那么对象q到对象p密度相连。
可以发现,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。
Eg: 假设半径Ε=3,MinPts=3,点p的E领域中有