1 / 57
文档名称:

基于关联规则的多标签分类研究.pdf

格式:pdf   页数:57页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于关联规则的多标签分类研究.pdf

上传人:pk5235 2015/12/13 文件大小:0 KB

下载得到文件列表

基于关联规则的多标签分类研究.pdf

相关文档

文档介绍

文档介绍:摘要江苏大学硕士学位论文在图像分类及标注、文本及语音分类、基因功能分析等实际应用中,分类所面临的数据已呈现出多标签特性,多标签分类己成为分类研究中的一个重要研究方向。与单标签分类问题不同的是,多标签分类问题的目标是寻找与待测数据相联系的标签集或一组标签,而不是单一标签。长期以来,单标签分类问题得到了广泛而深入的研究,专家们提出了多种性能较好的分类算法,但是现有的面向单标签分类问题的算法并不能直接用来处理多标签的问题。因此,如何设计出有效的多标签分类算法已成为分类领域中的一个研究热点。论文介绍了多标签分类问题的研究现状、相关技术,重点探讨了基于关联规则的多标签分类方法,并就多标签分类算法中所存在的一些不足,提出了相应的解决方案。另外,考虑到实际应用中最小支持度和训练样本数据库需要不断地被调整,提出了相应的增量式多标签分类算法。论文的主要研究工作包括以下几个方面:⒔樯芰硕啾昵┓掷辔侍獾难芯肯肿矗隽嘶诠亓9嬖虻姆掷喾椒ǖ难究进展。总结了分类、关联规则以及关联分类方法的基本思想和相关技术。⑻岢隽艘恢只诠亓9嬖虻亩啾昵┓掷喾椒∕,该方法通过挖掘样本数据库中的频繁项目集来构造多标签精确关联分类规则,并就挖掘过程中出现的一些关键问题提出了相应的解决方案。实验结果表明,与现有的一些经典多标签分类算法相比,算法哂辛己玫男阅堋⒄攵允导视τ弥邢嘤Σ问枰2欢媳坏髡那榭觯岢隽艘恢衷隽渴蕉啾签关联分类算法。该算法能够充分利用旧支持度下的频繁项目集来高效生成新支持度下的所有频繁项目集,从而得到新支持度下的多标签精确关联分类规则。理论与实验结果表明,算法具有较好的性能。⒄攵允导视τ弥醒盗费臼菘庑枰2欢细碌那榭觯岢隽艘恢衷隽渴的多标签关联分类算法。该算法充分利用已有信息来发现最新训练数据
关键词:多标签,分类,关联规则,频繁项目集,增量式基于关联规则的多标签分类研究库中的频繁多标签关联分类规则。理论与实验结果表明,该算法具有良好的性能。
.,..—.,,,瓸瑆..,.瓸,瑆,’
.:猯,,基于关联规则的多标签分类研究,.琭甌
第一章绪论研究背景与意义江苏大学硕士学位论文随着计算机技术和网络行业的迅速发展,诸如企业、科研机构和政府部门等行业能够更加快捷地利用计算机和网络与外界交换信息,他们所拥有的数据库规模、范围和深度均在不断地扩大,从而积累了大量的、不同形式的数据资料,并在很多领域创建了数据仓库。在这些行业累积的海量数据中通常隐含着多种多样的有用信息,这些信息无法通过人们的直觉和知识来发现。如何从海量数据中提取对我们有价值的信息,传统的数据库技术已经无法满足这种要求,数据的迅速累积与数据处理方法落后的矛盾越来越凸显,人们希望可以通过对已经收集的数据进行分析来帮助我们在科学研究、商业决策等领域做出正确的决策。数据挖掘俏A寺阏庵忠G蠖头⒄蛊鹄吹囊恢中滦褪荽砑术。在本质上,数据挖掘是一种用来发现知识的技术,是一个从海量数据中提取有用信息的过程。自世纪末提出以来,数据挖掘技术引起了众多专家学者的重视,并将其应用到许多领域中。它在金融、零售业、工业、。医疗和政府等行业都取得了良好的社会效益和经济效益,具有广阔的开发和应用前景。分类是数据挖掘技术中的一个重要研究分支,它旨在通过训练数据样本集来构造一个分类函数或分类器,并利用该分类函数或分类器给待测数据赋予一个标签蚨喔霰昵。在传统的被称为多类单标签分类问题中,每个数据只含有一个与之对应的标签。然而,在实际应用中,由于客观事物本身的复杂性,一个数据可能同时包含多个不同的标签,相应的分类问题被称作为多标签分类问题,比如在文本分类中,一个文本可以同时被赋予“新闻”和“经济”等多个标签【;在风景图分类中,一幅图像可以同时拥有“树林”、“山峰”、“草原,’等主题【,浚辉谝窖像分类中,一张医学图像可同时包含与“糖尿病”、“前列腺”等疾病相关的信息与单标签分类问题不同的是,多标签分类问题的目标是寻找与待测数据相联系的标签集或一组标签,而不是单一标签。长期以来,单标签分类问题得到了广泛而深入的研究,各种性能较好的分类算法不断地被提出,并在一些领域中得到了成功应用,如基于决策树的分类方法、贝叶斯分类方法、基于神经网络的分类方法、最临近分类方法、基于关联规则的分类方法等【。从表面上看来,多标签分
过对比标签集腥我饬礁霰昵┲涞墓叵担一/龇掷嗥鳎扛龇掷国内外研究进展概述合中新出现的的标签组合【】。但是惴ǖ母丛佣群芨撸挥惺涤眉壑怠U攵基于关联规则的多标签分类研究类和单标签分类具有很大的相似性,两者的目的都是对待测数据所包含的标签进行甄别,单标签分类是多标签分类问题的一个特例。然而多标签分类问题中标签间的关系缦喙匦浴⒐蚕中缘、标签和数据分布的不均衡性等问题将导致现有的面向单标签分类问题的方法并不能直接