文档介绍:长沙理工大学
硕士学位论文
基于蚁群算法的Web挖掘技术的设计与实现
姓名:吴林旭
申请学位级别:硕士
专业:计算机应用技术
指导教师:姚跃华
20090301
摘要群算法应用于褂猛诰虻挠没挛窬劾嘀小J笛榻峁砻鳎河氪乘惴ㄏ比较,基于蚂蚁的聚类和分类算法在诰蛑芯哂幸欢ǖ挠攀啤本文首先在对诰蚬探蟹治龅幕∩希晗傅胤治隽薟挖掘中有算法应用于诰蚣际跎系牟蛔阒螅疚慕恢只谝先河呕姆掷嗨给出了基于的聚类分析模型,继而对相应的算法进行实现,并应用到、Ⅳ使用挖掘的聚类模型上。通过实验仿真,该聚类算法在聚类过程中,能够很好地避免算法出现停滞,并且较好地解决了全局优化的问题,使聚类的整体性能达到关键词:诰颍灰先核惴ǎ籛内容挖掘;褂猛诰颍环掷啵痪劾本文通过研究现有的诰蛑芯劾嗪头掷嗉际醯幕∩希恢只谝先优化的分类算法应用于谌萃诰虻囊趁娣掷嘀校翰⒁胍恢只诟慕囊聚类和分类的现有技术的优缺点。深入讨论了几种改进的蚁群算法,在分析了现法—应用到谌萃诰蛑械囊趁娣掷嗌希⒔辛朔墙峁够菁的处理。通过实验分析,:橐籑惴ǖ姆掷喙嬖蛟谧既仿屎图蚪嘈苑矫娓拧最后,引入了一种改进的蚁群算法琁,并最优。
狹簂鞋稟頳鰋篧;籛鑫籧箫骾露最£纓街秊数琺﹐v≯頶毪╣╳挂,╬.琣琣圭魏魏鑫鑫耋纛甤纛,鵲鑫铞蝜蠢£,:温决蜼昴襡牿蝕蕤鑫£嚣◇襡蝔£鈖栗糳.£;£纛辏琲珏恪阧阧£丑猼鑫琹趌痠藏乏鑫籧阨瓹瑆甌量£珏萢纛毽鬈。砖纋纛,◇鵨辍阛睢阧膇;瓤薹Ⅱ
嗍刁年僻日作者签名:羡特翘暑期:爿年否月乒透矽年多胃尹墨薹、保密口,在——年解密蒿适用本授权书。学位论文版权使用授权书长沙理工大学学位论文原创性声明本人郑重声明:所受交的论文是本入在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究徽描重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于⒉槐C芡拧朐谝陨舷嘤Ψ娇蚰诖颉啊獭作者签名:导师签名:霉期:
第一章绪论课题背景及研究意义无序的信息进行检索,让用户能更清楚地了解网站的作用,提升网络信息处理与源中发掘出有用的规律和模式,它包括神经网络、数据库、模式识别等人工智能取信息的时候采用了诰虻募际酢挖掘就是从各种菰粗校槿潜在的、有用的模式或信息的过程。根据处理对象的不同,将诰蚍治H心簑内容挖掘、峁雇诰蚝蛍使用挖掘。它们分别挖掘网页站点文件内容、结构和使用信息,并且已经在很多方面得到实现,如在搜索引擎和建立数据仓库等方面都起着很重要的作用。难杆俜⒄梗缱由涛竦姆⒄刮M缬τ锰峁┝饲看蟮闹持。闲畔⑹萘康哪岩约扑悖谷嗣羌毙柘牖竦靡恢帜艽覹上更方便更高效更快速地获取信息的工具,搜索引擎由此而产生。搜索引擎在于对系信息进行检索,但是现有的技术存在着搜索覆盖率有限、精度不高等问题,无法用于锨痹诤鸵刂J兜姆⑾帧的对象是大量半结构化、动态、杂乱的荩⑶襑页面的复杂程度远远超过普通文本格式,因此其特性决定了诰蛭薹ㄖ苯佑τ么车氖菘饬煊的挖掘技术和模型。最好的方法就是结合传统数据挖掘与诰颍「髯缘摹优点,使整个挖掘系统与数据库紧密结合,这就成了挖掘的前提。诰蚴且桓鐾暾募际跆逑担鞲霾糠种溆凶琶芮械墓叵怠=型诰据进行组织整合得出对文档感兴趣的结构,并且坚持对该结构进行分析,否则会导致各种算法之间的重复工作,因此研究方向是用自动化的方法在闲畔⒒随着趁娴募本缭龀ぃ约霸谛畔⒐蚕砗偷缱由涛穹矫娴墓惴河τ茫已成为世界上最丰富的信息来源。为了让搜索引擎能更好地对这些大量、组织技术,诰褪窃谡庋幕肪诚虏模荚诖覹资相关技术,并已经迅速成为研究热点之一。随着的高速发展,在处理海量数据量以及自动从牡岛头裰谐诰虼邮萃诰蚍⒄苟矗ù车氖萃诰蚣际跤隬相结合,在很多方面都优于传统的数据挖掘口W钕灾厍鹁褪谴车氖萃诰蛑皇嵌允库中的结构化数据进行挖掘,利用各种存储结构的不同来发现知识,而诰之前需要找到相关的牡担⒋游牡抵姓业叫枰5氖菹钅浚康脑谟诙允的和信息抽取。
研究现状及现状分析由于闲畔⒕哂衅涠浴虢峁够蚍墙峁够泻苣阎苯佣詗上的数据进行数据挖掘,而需要进过一些数据处理。其流程有:查找资源、信息选择和预处理、模式发现、模式分析。通过这些步骤才可实现诰颉蚁群算法是一种借鉴蚂蚁寻找食物过程中寻找优化路径的算法。虽然它的一些思想还出于萌芽时期,但是