文档介绍:西南交通大学研究生学位论文年姓专二零一一年五月一令一一半丑月国内图书分类号:国际图书分类号:密级:公开
瓺..
⋯文作⋯:着乏书⋯燧名:蚣毫日期:с日卑厂阑槐C苊媸褂帽臼谌ㄊ椤西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于C芸冢年解密后适用本授权书;朐谝陨戏娇蚰诖颉按纭日期:.
之学日期:勿军/闩西南交通大学硕士学位论文主要工作毕声明本人在学位论文中所做的主要工作或贡献如下:灾С窒蛄炕脑斫辛讼钢碌姆治觯芙崃司淠:С窒蛄炕脑恚然后在此基础上提出了一种模糊支持向量机,用来解决含有混合类的两类分类问题。对模糊隶属度的设计进行了总结,为该模糊支持向量机设计了一种基于距离和密度的隶属度函数。芙崃硕啾昵┓掷嗟南喙卦砗透拍睿匀ň钟呕啾昵┓掷嗖呗院褪莘解多标签分类策略进行了探讨和对比。提出了一种使用一对一分解策略的基于模糊支持向量机的多标签分类算法,并引入了快速半模糊核聚类技术对训练样本进行预处理,提高了算法的性能。最后,在标准的多标签分类数据集上进行实验,取得了良好的效果。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:
摘要西南交通大学硕士研究生学位论文第自上世纪后期人们进入信息时代,各种数据就海量积累起来,远远超出了人力的处理范围,出现了“信息爆炸而知识匮乏”的现象。为此,数据挖掘技术应运而生,并显示出了强大的生命力。分类是数据挖掘中最常见的任务之一。它是通过已知的信息总结出规律,用来对新的数据进行判别,对其进行预测的过程。其中比较特殊的一种情况是一个样本具有多个标签的分类问题,称为单实例多标签分类问题。不同于常见的单标签分类情况,在这类问题中,数据具有多个标签使得样本的归属变得模糊不清,难以准确分类,具有相当的难度。然而在日常生活中其用途十分广泛,很多学者都致力于此,出现了很多优秀的算法及其改进。本文针对该问题设计了一种基于模糊支持向量机的多标签分类算法。支持向量机琒且恢中滦说姆掷嗷鳎谏鲜兰途攀甏┢谟实验室的等人提出。该分类器基于统计学习理论和结构风险最小化原理,集成了最优分类超平面、核函数、凸二次规划等技术,能有效地解决“过学习”、“维数灾难”和局部极小点等问题,具有良好的推广性和准确率。但是支持向量机是针对两类单标签的数据集进行设计的,不能直接应用在多类别、多标签的问题中。为此本文设计了一种模糊支持向量机,能够对含有两类数据、样本可能具有两个标签的数据集进行分类。该分类器采用了模糊设计思想,通过对样本设置一个隶属度函数,充分利用了数据信息。该分类器不存在不可分区域,具有良好的分类精度。为了准确描述样本对类别的隶属关系,本文设计了一种基于距离和密度的隶属度函数。考虑到多标签分类的特殊性,本文采用了一对一分解策略,将原始数据分解为多个两类双标签子集分别训练,然后将其结果使用投票法进行组合,最终完成多标签分类。为了提高训练速度,降低训练集中噪音点对最优决策超平面的影响,本文引进了一种快速模糊核聚类技术,有效地提高了算法的性能。在实验部分,本文首先总结了一些被广泛采用的多标签分类算法的评价标准,然后在峁┑氖菁辖惺笛椋詈蠼ń峁胂钟械囊恍┒啾昵┓掷嗨惴ń辛比较。关键词:数据挖掘:模式识别;多标签分类;支持向量机;模糊核聚类
..甅,痯瓾瓹甀·,瑃猯..’’,‘‘猚,—,猚,猯.,,—’,,,‘‘
西南交通大学硕士研究生学位论文第;籑—籉..;篋
目录西南交通大学硕士研究生学位论文第页第滦髀邸璴本文的研究背景和研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..:⋯⋯..多标签分类的国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文主要内容和结构安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第轮С窒蛄炕统计学习理论概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..』颉维理论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..』颉支持向量机原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯