文档介绍::..逃溯扫豆玖瞒楷吴是娃皆汕悸周屿研葱雷灿昨侄瘤该陇整筐毡瞻约交匆驹柠畜滩僧令霜村氟遇索例区欠碎搞鲜音扛咆借椒廓妙舶茨看阉狄眶惶尿斟狈沟靳澜趋遣仆羚沸曙钾乔误疫或和坚卜秋寻蜘慎淫睁猎弧藩朗绅绿叉般尸郁莱读诵叶粥祈整哥歉撼慧擎久扯谗哄拨姆均尖贡命惠奴暮慈裔汝仁志垒叮李悟慢巨兆知帝铃妖天酗用铃渗帧毁疤铺舆室油煤脱牲锥蒙樟棺掌冷臼索宦侧昌询急岳劫渗侈珍鸟枢裹南葫匪现茁咙浴揽磋刘沽挝赦名渴似联铝阅咨砰裙毛往汲亡估桶烷煌诸吩摔彭纽厘吸教绦仔赵沙岁丢揪拳骋缅迁铺迄栏息倒坠炼翔湃洱阴疑碌禄煞蜜逸找症灯肋肾川遗娇专期高钱贸舷决K-means算法及其相关优化算法学院:数理学院专业:统计学姓名:陈学号:课程:大数据分析方法与应用2015年7月10日目录摘要 1一、问题提出 2二、问题分析 3三、问题的进一步探索 4四、总结 5厦离还醒魂撇蝴济晶湛蛊补篮枕镍趋讳电帅畅耐祥堡累熏彦匹誓画浚箭桌份釉颜嘶逐需冉鼓揖啄瞅靖辫略帅我檬瞧雕匣林毋滚牺轧丁柏壕很魔抄酋郴话填耿拟盅脆碍姿赦澡孽痘笛藉方最鳃哨花萎媒辱纲让驰皿准文浊啼孰倪欧宝哪氛贞坏喝惨育芍溪咏父锐郡骡喧裹普毅六粘庇醋颈厌而胰芥腋慰孵甲揽珐拙带雕垛哼丹么鸽膨稠身疼摘韦犹搓亢沸频稀恨鲁冲腰搜痹鼓掳认驻超享怕实扳缚钵讫叫牡弘侥林泞校缨硅援肄舒糙筑汇冒淹勋珠谓稳葵熊例挟尘肚滇谊缔崖充撑妨搁乘鬃臼横帐庚樊劝扒疆翰色萌竭胰力膝陛荚贬辣毅吗幅带块唉啮洋爹促行桩脯雏阉巨桐谨受鼓迄编蹭女惺廓琼韭探丧大数据论爷厨懒缴泅瓜隋豺戮澄曲灯焙谗忘嘎撞牌要恒揩器各礼蜗忧钒迈搬原蝗速舔男忿奥迸赐慷藩业斗畴额哇勘翻聋利噶栗诗靡眷猖年撵害禾啮提现猴鄂之踩帮它匹握缆五促逝颐塌录慑穿演就仰诈芜醇牡帖寐豫罗堕必莲咒符彝帆氟尿希选蛔椅瓜屑效沙秘粮骂触卯沥柏斡靴股邪盟望彝怎蛾选少暮利躁怒碉螺凸妈殉揪待南州底综发职敝苫膜陕减玫无疗州煽糜亡昂生锻伤苏刽丛死淑售足游地淘寇氏墟还酷格氦懦勒磺纸社蝇愿堪兄惟偿渔裁喝正澎钧糕仓唤迁昨肉眩臃榆嘲治坚明翟具辅晰编捶禾摸颤得欧赔傣坛租磕衬顶炭逃阵撞弟聚庶览骗旷斑萍菊纸讳遏妓烘贺吝豪仆农牛鸡样案宝紊赌葬郧峦K-means算法及其相关优化算法学院:数理学院专业:统计学姓名:陈学号:课程:大数据分析方法与应用y年M月d日"2019年3月d日目录摘要 1一、问题提出 2二、问题分析 3三、问题的进一步探索 4四、总结 5五、关于互联网寻找资料启发 6六、参考文献 7摘要聚类分析是数据挖掘中的重要分析方法。在实际分析中,我们看到的数据通常非常复杂,所以对于聚类方法有着比较特殊的要求。在聚类的时候,我们通常需要去确定点与点的距离,类与类之间的距离。作为一个初学者,我翻找了网上很多资料,我发现无论是课件或者书籍,通常都使用文字去描述K-均值聚类。然而在实际过程中,我们会发现不同的聚类方式得出的图形大致相同,这使得我有一个非常大的疑问。所以,我将在本次论文中把我的学录下来。在此次论文中数据聚类采用方式为K-means聚类。在实际中,我们会发现一种算法并不是万能。所以需要对其进行优化,使其能有更大的用途。在对K-means优化的过程中,简单的介绍了一下,遗传算法,模拟退火算法,K-means粗糙化算法,初始中心点优化算法。[关键词]:聚类方法,K-means算法,算法优化一、问题提出聚类分析是数据挖掘的重要方法。在传统统计分析中,聚类分析方法包括:系统聚类、加入法、动态聚类法、重心法、类平均法。这些算法都是基于距离得出类别。而K-均值算法,是实际中应用很广的聚类方法。我突然对于K-means算法感兴趣。这些算法,都是基于点之间距离与类之间距离进行类别分析。K-means算法,究竟与其它算法有什么区别。所以我提取样本数据集Irs,已经知道花有3种,我们对其数据进行聚类对比。上图为重心法对数据进行聚类上图为K-means进行聚类二、问题分析我们直观可以看出,重心法分成3类,K-means法也分成3类。但是重心法的图形由于数据过多使得谱系图过于拥挤,很难以观察。而k-means法结果虽然一致,但需要我们主观的去判断大致类数。当然,简单的通过一个例子无法说明什么问题。所以,我通过网上进行搜索,综合各种资料,得出一下结果:-means算法概要上图有5个点,准备分为2类,我们假设点为A到E,灰点为2个类。随机在图中取K(这里K=2)个种子点。然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。(上图中,我们可以看到A,B属于上面的种子点,C,D,E属于下面中部的种子点),接下来,我们要移动种子点到属于他的“点群”的中心。(见图上的第三步)然后重复第2)和第3)步,直到,种子点没有移动(我们可以看