文档介绍:摘 要
近年来,随着软件技术的飞速发展,高可信软件问题迅速膨胀,成为近几年
的研究热点。如何有效地提高软件可信性,并快速、准确、全面地从中找到用户
所需要的信息已经成为软件技术领域的一个亟待解决的问题。软件缺陷是导致软
件可信性降低的直接因素,本文就是在这一动机下,展开高可信性软件缺陷的研
究。关联规则作为数据挖掘中的重要技术,揭示其中隐藏的有用信息,可以在较
大程度上解决可信性和可靠性问题。其中正负关联规则是关联规则的一个重要分
支,能够拓宽数据挖掘在高可信性软件缺陷的研究领域,具有高度的理论价值和
广泛的应用前景。
本文分析了软件缺陷和正负关联规则的研究现状,指出正负关联规则应用领
域需要进一步研究和解决的问题,在此基础上,对基于正负关联规则技术的软件
缺陷展开了深入研究,并通过 Weka 平台进行了数据实验。本文主要内容如下:
(1) 综述了数据挖掘在面向缺陷的软件可信性测试、评估与技术方面的最新
研究,包括缺陷测试中常用的数据挖掘方法、数据挖掘系统和软件测试管理体系。
针对软件缺陷的不同分类具体介绍了基于关联规则的软件缺陷分析技术的应用。
(2) 介绍了常用的数据挖掘技术,深入研究了关联规则,分析了其他技术用
于软件缺陷研究中的优势及不足;重点探讨了正负关联规则的相关理论,给出了
正负关联规则定义和对含有负项目的关联规则评价标准支持度和置信度的计算方
法。
(3) 针对传统的基于“支持度一置信度”框架的评价标准存在的问题,提出
在评价标准中增加兴趣度,给出了兴趣度的定义和基于“兴趣度—支持度—置信
度”框架的正负关联规则挖掘技术,从而可以用此技术挖掘带有负项的关联规则。
(4) 介绍了开源数据挖掘平台 Weka 的特点、功能以及挖掘过程。同时在 Weka
开源环境下对其进行再次开发,将正负关联规则算法嵌入到 Weka 平台,扩充了关
联规则算法,并充分利用了开源 Weka 中的类和可视化功能。同时对嵌入的算法进
行了分析和测试,并和原有关联规则算法进行了对比分析。实验证明 Weka 数据挖
掘平台可以获得更好的关联规则效果,所挖掘出的软件缺陷规则数量少,质量高,
无虚假规则和相互矛盾的规则。
关键词:可信软件;软件缺陷;数据挖掘;正负关联规则;兴趣度;Weka
I
Abstract
The problems of high credibility software are rapidly expanding with the rapid
development of software technology, which has become a research hotspot in recent
years. How to effectively improve the reliability of software, and to find the information
they need quickly, accurately, and completely has become one urgent problem of the
field of software technology. This paper carried out the research of high-reliability
software defects in the motive that software defects are the direct factor to reduce the
credibility of software. As an important data mining techniques, association rules reveal
the hidden useful information, and solve a large extent the credibility and reliability
issues. Positive and negative association rules is an important branch of association
rules, which can broa