文档介绍:基于概率潜在语义分析的软件变更分类研究
重庆大学硕士学位论文
(专业学位)
学生姓名:鄢 萌
指导教师:张小洪 教 授
学位类别:工程硕士(软件工程领域)
重庆大学软件学院
二 O 一三年五月
Software Change Classification based on
Probabilistic Latent Semantic Analysis
A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Professional Degree
By
Yan Meng
Supervised by Prof. Zhang Xiaohong
Specialty:ME (Software Engineering Field)
School of Software Engineering of
Chongqing University, Chongqing, China
May 2013
摘 要
软件变更是指软件开发者对软件系统的一次更改,在软件的整个生命周期中,
追踪和理解软件变更发生的原因是一项重要且困难的任务。当前已经有研究者提
出了基于关键词检索的方法来识别软件变更发生的原因,也取得了一定的成果,
然而仍然存在一些尚未解决的问题,如在分析软件变更日志中存在的同义词与多
义词问题。本文提出了一种基于半监督主题模型的方法来识别软件变更发生的原
因,根据其原因对软件变更进行分类。研究对象为存储在软件版本控制系统(如
SVN)中的软件变更日志,应用半监督主题模型对软件变更日志进行挖掘和分析,
在主题提取上,采用了概率潜在语义分析 Probabilistic Latent Semantic Analysis
(PLSA)技术。主要工作内容如下:
1. 在软件版本库变更日志的数据抽取与预处理上,提出了联合 CvsAnaly,
GATE, Wordnet 三个工具的解决方案,并通过引用工具提供的 API 包实现了软件变
更日志的数据抽取、存储与预处理;
2. 为解决以往基于关键词检索的软件变更分类中存在的同义与多义问题,提
出了基于 PLSA 主题模型的解决方法,并利用 Eclipse 和 MATLAB 平台完成核心
算法的编写;
PLSA 主题模型时,针对原始的 PLSA 对方法进行了两点改进:第一
则是单