1 / 14
文档名称:

金融数据挖掘.docx

格式:docx   大小:6,838KB   页数:14页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

金融数据挖掘.docx

上传人:晓熙 2022/5/25 文件大小:6.68 MB

下载得到文件列表

金融数据挖掘.docx

文档介绍

文档介绍:Last revised by LE LE in 2021
金融数据挖掘
金融数据挖掘论文
院系: 理学院
专业班级: 信息与计算科学132班
学号:
姓名: 施得结果中选择一个较大的簇,继续使用K-均值算法进行分裂操作,直到得到K个簇,算法终止。
二分K-均值算法步骤如下:
输入:训练数据集D,二分次数m,目标簇数k。
输出:簇集N={N1,N2……,Nk}。
(1)初始化簇集S,它只含一个包含所有样本的簇N,将簇数K’初始化为1;
(2)从S中取出一个最大的簇Ni;
(3)使用K-均值聚类算法对簇Ni进行m次二分聚类操作;
(4)分别计算这m对子簇的总SSE的大小,将具有最小总SSE的一对子簇添加到S中,执行K’++操作;
(5)如果K’=K,算法结束。否则重复(2)到(5)步骤。
算法使用误差平方和SSE最为聚类的评价函数,对于二分K-均值聚类算法是各个步骤都是只有2个簇中心,因此相对于基本K-均值算法而言,更不易受到簇中心初始化问题的影响。二分K-均值算法中各步找出SSE之和最小的一对子簇N1和N2:
J=xi∈N1xi-m1*2+xi∈N2xi-m2*2
在二分K-均值算法中,使用误差平方和和度量聚类的质量的好坏,具体的操作是对各个样本点的误差采取欧几里德距离进行计算,然后计算误差平方和。二分K-均值算法没有初始化的问题,每一步操作实际上就是从m对子簇中找到误差平方和最小的一对子簇,然后再进行基本的K-均值操作。
BIRCH算法
Zhang 等人提出了Birch(Blanced Iterative Reducing and Clustering)[1] 算法来对大规 模数据集进行聚类。Birch 算法是一种非常有效的、传统的层次聚类算法,该算法能够用一 遍扫描有效地进行聚类,并能够有效地处理离群点。Birch 算法是基于距离的层次聚类,综 合了层次凝聚和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改 进结果。[2]层次凝聚是采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些 原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中,或某个终结条件被满足。
Birch 算法的主要思想是:通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。
CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。 其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。比如给定一个由二维点组成的集合{(3,4),(2,6),(4,5)},那么CF 结构概括了簇的基本信息,并且是高度压缩的,它存储了小于实际数据点的聚类信息。同时CF 的三元结构设置使得计算簇的半径、簇的直径、簇与簇之间的距离等非常容易。
Birch 算法主要分为以下两个阶段:
(1) 扫描数据库,动态的建立一棵存放在内存的CF 树。若内存不够,则增大阈值,在 原树基础上构造一棵较小的树。
(2) 对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇 的大小,并且数据的输入顺序也会影响到聚类结果。因此,需要对叶节点进一步利用一个全 局性的聚类算法,改进聚类质量。
基于密度的聚类算法
DBSCAN(Density-based Spatial Clustering of Applications with Noise)
是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。
DBSCAN中的的几个定义:
Ε领域:给定对象半径为Ε内的区域称为该对象的Ε领域
核心对象:如果给定对象Ε领域内的样本点数大于等于MinPts,则称该对象为核心对象。
直接密度可达:对于样本集合D,如果样本点q在p的Ε领域内,并且p为核心对象,那么对象q从对象p直接密度可达。
密度可达:对于样本集合D,给定一串样本点p1,p2….pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。
密度相连:对于样本集合D中的任意一点O,如果存在对象p到对象o密度可达,并且对象q到对象o密度可达,那么对象q到对象p密度相连。
可以发现,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。
Eg: 假设半径Ε=3,MinPts=3,点

最近更新

禁异科学市公开课获奖教案省名师优质课赛课一.. 4页

应对风暴和龙卷风寻找安全避难所的指南 27页

柳树作文300字 3页

幼儿园主题班会, 甜蜜回忆,快乐生活课件 23页

爱国与卫生班会市公开课获奖教案省名师优质课.. 6页

漏斗科学市公开课获奖教案省名师优质课赛课一.. 4页

国家互联网信息办公室副主任钱小芊在中国网络.. 3页

歌曲快乐六一市公开课获奖教案省名师优质课赛.. 5页

春天的柳树市公开课获奖教案省名师优质课赛课.. 5页

层流净化手术室中院感控制与手术室设备维修保.. 32页

户外迷宫市公开课获奖教案省名师优质课赛课一.. 4页

快乐六一市公开课获奖教案省名师优质课赛课一.. 3页

并行计算框架下火花图绘制技术 30页

创伤窒息引发的ARDS治疗策略 31页

导医接待中的疼痛管理要点 30页

安防行业灌胶机市场竞争格局与趋势研究 19页

季节性传染病预防培训课件关键要点详尽剖析 22页

2024年供货合同模板10篇 37页

卫生院家庭医生签约服务工作计划 5页

抖音更换资质承诺函 1页

模板木方采购合同范本 7页

2023三年级信息技术下册教案 21页

房地产项目策划书范本 5页

教务管理系统 数据库课程设计报告 32页

2021年辽宁省寿险公司客户回访管理标准规定 9页

新建电厂设备及系统代保管协议(含代保管签字书.. 11页

重庆梁平至黔江高速公路石柱至黔江段建设项目.. 64页

(最新)创世纪查经讲义 75页