文档介绍:聚类分析在学生成绩分析中的应用[摘要]聚类分析作为数据挖掘方法之一,有着广泛的应用前景,作为一个工具它能够对数据族进行细致分析,得出数据分布的情况,为数据的评定提供参考和帮助。根据学生成绩进行等级评定,也是在教学过程中对学生综合考核的一个重要环节,能否公平、公正、合理、客观地来评价学生的学习成果尤为重要。传统一刀切的评价方法明显存在缺陷,对学生也不公平,因此,可以利用数据挖掘技术中的聚类分析思想来克服这些传统评价体系的缺陷。[关键词]聚类分析;数据挖掘;评价体系;K-means算法doi:.1673-[中图分类号][文献标识码]A[文章编号]1673-0194(2016)06-0-020引言数据挖掘(DataMining)就是从大量的、模糊的、不完全的随机数据中提取出隐含的、不为人们所知道的但对人们却很有用的信息和知识的过程。它涉及的领域比较广泛。聚类分析通俗地说就是“物以类聚”的意思,它会根据设定的条件对数据进行分类,把性质相似或相近的数据划分为一类,把原来大量的、没有什么关联的数据变成彼此有联系的几类数据,便于人们了解数据的分布情况和数据间的彼此关联关系。它应用的领域也比较多,比如:模式识别、动植物分类、基因分析、市场分析等。1聚类分析的步骤及分类步骤一:特征提取。由用户决定使用原始数据(样本)的那些特征来对数据进行分类和提取,把提取到的数据以矩阵的形式表现出来,每一行是一个样本,每一列是一个特征指标变量。步骤二:获得聚类谱系图。要想获得聚类谱系图,可以使用聚类算法,样本特征提取以后形成一个带有特征的矩阵,它把每一个样本看成特征变量空间中的点。聚类算法的目的就是获得能够反映n维空间中这些样本点的最本质的“族”的性质。也就是说,它不考虑其他领域的知识,仅仅根据样本的特征进行细化分类,形成一个特征集合。步骤三:分类阀值的选取。这一步就要凭借经验和领域知识了,根据生成的聚类谱系图和具体的应用目的来选取适当的阀值。阀值确定以后,就能够从聚类谱系图上得出分类方案,为下一步数据的分析提供帮助和参考,所以选取合适的阀值就显得很重要了。聚类分析常用的方法有4类:划分方法、层次方法、基于密度的方法及基于网络的方法。这4类方法各有特点,根据应用目的不同可以选取不同的方法,期中K-means算法是最常用的基于划分方法的聚类算法,它是根据距离相似性作为评价指标,也就是两个样本的距离越近,相似性就越大。其最终的目的是把距离最近的对象作为一族来看待,把原始数据划分成紧凑且独立的各个数据族。2聚类技术在成绩分析中的应用学生成绩是考核学生对知识掌握程度的重要指标,也是评价教学质量和教学效果的一个重要依据,如何科学合理地对学生成绩进行分析评价是教育工作者多年来一直研究的课题。学生成绩的评定由原来传统的五分制、百分制慢慢发展到现在普遍使用的学分制、等级制。等级制成绩评价法比较适合对学生成绩的一个纵向衡量,而横向衡量学生成绩的差异则所包含的信息量还明显很不足。因此,如何科学地利用原始成绩给出合理的等级制成绩,完成以后对成绩进行各种分析提供依据就显得尤为重要。本文主要采用了K-means聚类分析算法来解决这个问题。表1是2014级×××学院100名学生的计算机基础课程的成绩表(本文取部分学生成绩)。按照传统的成绩划