文档名称：

金融数据挖掘.docx

格式：docx 大小：2,515KB 页数：15页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

金融数据挖掘.docx

上传人:春花秋实 2023/2/8 文件大小：2.46 MB

下载得到文件列表

金融数据挖掘.docx

相关文档

文档介绍

文档介绍：该【金融数据挖掘】是由【春花秋实】上传分享，文档一共【15】页，该文档可以免费在线阅读，需要了解更多关于【金融数据挖掘】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。Revisedat2pmonDecember25,2020.
金融数据挖掘
金融数据挖掘论文
院系:理学院
专业班级:信息与计算科学132班
学号:
姓名:施秋梅
日期:2016年6月24日
摘要
本文主要讲述金融数据挖掘中的聚类分析,主要介绍聚类分析的几种聚类的方法——系统层次聚类法,k-均值算法,BIRCH算法和基于密度的聚类算法。然后通过几个实例来深度了解这几种算法,最后是聚类分析在生活中的应用。
目录
1、前言
聚类分析也称无教师学****或无指导学****与分类学****相比,聚类的样本一般事先不做标记,需要由聚类学****算法自动确定。聚类分析是在没有训练目标的情况下将样本划分为若干簇的方法。聚类分析是数据挖掘中重要的分析方法,由于数据和问题的复杂性,数据挖掘对聚类方法有一些特殊的需要,这些需要表现为:大规模数据中块特征的认识需要,能够处理不同属性数据的聚组,适应不同形状的聚类方法,具备抗强噪声的能力和较好的解释性,不受输入数据的顺序的影响,高维聚类以及能够和具体的约束兼容等,以上需要造就了丰富的聚类分析方法,也使得聚类分析广泛的应用于客户分析、文本归类、结构分组和行为跟踪等问题中,成为数据挖掘中发展很快而且灵活变化丰富的一个分支。
聚类分析是一种探索数据分组的统计方法,其目的是建立一种归类的方法,将一批样本或变量,按照它们在特征上的水程度进行分类,使得组内样品的相似度达到最大,而组间的差距达到最大。即簇内部的人艺两个样本之间具有较高的相似度,而属于不同簇的两个样本之间具有较高的相异度。相异度通常用样本间的距离刻画。在实际应用中,经常将一个簇中的数据样本作为同质的整体看待,有简化问题和过滤冗余信息的作用。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
2、相关算法分析
系统层次聚类法
距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法,其想法是首先将所有的样品都单独作为一类,然后计算任意两个类之间的距离,将其中距离最近的两个类合并为一类,同时聚类的数量减一。不断重复这个过程,直到最后只剩下最大的类别。层次聚类算法的步骤可以概括如下:
(1)根据适当的距离定义准则,计算现有的N个类别两两之间的距离,找到其中最近的两个类(不妨记为P和Q);
(2)将P,Q合并,作为一个新类PQ,加上剩下的N-2个类,此时共有N-1个类;
(3)重复步骤(1)(2),直到聚类数缩减为1停止。
系统聚类的算法复杂度是O(n^2),上述聚类的结果可以用一个树状图展示,如图所示,其中树的最低端表示所有的样品单独成类,最顶端表示所有的样品归为一类,而在此之间,聚类数从N-1变动到2。在任何一个给定的高度上,都可以判断哪些样品被分在树的同一枝,而聚类数的确定,需要通过实际情况进行判断。
图
k-均值算法
k-均值算法是另一种应用范围非常广的聚类方法,它是一种典型的划分聚类的方法。其思想是在给定聚类数K时,通过最小化组内误差平方和来得到每一个样本点的分类。
k-均值算法的过程大致如下:
(1)从N个样本点在中任意选择(一般是随机分配)K个作为初始聚类中心;
(2)对于剩下的其他样本点,根据他们与样本中心的距离,分别将他们分派给与其最相似的中心所在的类别;
(3)计算每个新类的聚类中心;
(4)不断重复(2),(3),直到所有的样本点的分类不再改变或类中心不再改变。
具体如下:
输入:k,data[n];
(1)选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];
(2)对于data[0]….data[n],分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;
(3)对于所有标记为i点,重新计算c[i]={所有标记为i的data[j]之和}/标记为i的个数;
(4)重复(2)(3),直到所有c[i]值的变化小于给定阈值。
K-均值算法的第二个人问题是容易受到初始点选择的影响,在分类数据上分辨力不强,不适用于非凸问题,受异常数据影响,受到不同类别的密度方差大小的影响。解决的方法是采用二分K-均值过程。其主要思想是:假设要将样本数据分为K个簇,先用基本K-均值算法将所有的数据分为两个簇,从所得结果中选择一个较大的簇,继续使用K-均值算法进行分裂操作,直到得到K个簇,算法终止。
二分K-均值算法步骤如下:
输入:训练数据集D,二分次数m,目标簇数k。
输出:簇集N={N1,N2……,Nk}。
(1)初始化簇集S,它只含一个包含所有样本的簇N,将簇数K’初始化为1;
(2)从S中取出一个最大的簇Ni;
(3)使用K-均值聚类算法对簇Ni进行m次二分聚类操作;
(4)分别计算这m对子簇的总SSE的大小,将具有最小总SSE的一对子簇添加到S中,执行K’++操作;
(5)如果K’=K,算法结束。否则重复(2)到(5)步骤。
算法使用误差平方和SSE最为聚类的评价函数,对于二分K-均值聚类算法是各个步骤都是只有2个簇中心,因此相对于基本K-均值算法而言,更不易受到
簇中心初始化问题的影响。二分K-均值算法中各步找出SSE之和最小的一对子簇N1和N2:
J=xi∈N1xi-m1*2+xi∈N2xi-m2*2
在二分K-均值算法中,使用误差平方和和度量聚类的质量的好坏,具体的操作是对各个样本点的误差采取欧几里德距离进行计算,然后计算误差平方和。二分K-均值算法没有初始化的问题,每一步操作实际上就是从m对子簇中找到误差平方和最小的一对子簇,然后再进行基本的K-均值操作。
BIRCH算法
Zhang等人提出了Birch(BlancedIterativeReducingandClustering)[1]算法来对大规模数据集进行聚类。Birch算法是一种非常有效的、传统的层次聚类算法,该算法能够用一遍扫描有效地进行聚类,并能够有效地处理离群点。Birch算法是基于距离的层次聚类,综合了层次凝聚和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改进结果。[2]层次凝聚是采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中,或某个终结条件被满足。
Birch算法的主要思想是:通过扫描数据库,建立一个初始存放于内存中的聚类特征树,然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CFTree)。
CF是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。其中:N:簇中d维点的数目;LS:N个点的线性和;SS:N个点的平方和。比如给定一个由二维点组成的集合{(3,4),(2,6),(4,5)},那么CF结构概括了簇的基本信息,并且是高度压缩的,它存储了小于实际数据点的聚类信息。同时CF的三元结构设置使得计算簇的半径、簇的直径、簇与簇之间的距离等非常容易。
Birch算法主要分为以下两个阶段:
(1)扫描数据库,动态的建立一棵存放在内存的CF树。若内存不够,则增大阈值,在原树基础上构造一棵较小的树。
(2)对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。由于CF树的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇的大小,并且数据的输入顺序也会影响到聚类结果。因此,需要对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。
基于密度的聚类算法
DBSCAN(Density-basedSpatialClusteringofApplicationswithNoise)
是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。
DBSCAN中的的几个定义:
Ε领域:给定对象半径为Ε内的区域称为该对象的Ε领域