文档介绍:该【数据挖掘课程设计 】是由【非学无以广才】上传分享,文档一共【16】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘课程设计 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘 报 告
目 录
5
5
5
6
6
: 6
7
: 7
(1)数据清理 7
(2)数据集成 7
(3)数据变换 8
(4)数据归约 8
10
(1)简单的统计量分析: 10
(2)箱型图分析 10
12
12
14
: 14
15
16
摘要
学生成绩是反映学校教学水平的第一手资料,这些数据可觉得学校改善教育教学提供重要根据。然而,现阶段的学生成绩分析,多数还停留在较为原始的数据库管理和查询阶段,没有对学生的成绩进行横向和纵向的对比研究,也缺少对各学科成绩之间内在联系的挖掘。为此,学校将数据挖掘技术与学校学生成绩分析管理系统相结合,通过度析和解决系统中大量的学生成绩数据,寻找潜在的规律及模式,促使学校更好地开展教学工作,提高教学质量。
Abstract
Student achievementisthe first-hand informationreflecting theteachinglevel ofa school. These data canprovideanimportant basisforschoolstoimproveeducation and ,atthisstage, mostof the students'performance analysisstillstays intherelativelyprimitivestage ofdatabasemanagementand query. Thereisnohorizontaland verticalcomparativestudyofstudents'performance,noristhereanyexcavationoftheinternallinksbetweenthe performanceof ,theschoolcombinesthedataminingtechnologywiththeschoolstudentachievementanalysismanagement large numberofstudentachievementdata,theschool seeks for potentialrules andpatterns,andpromotes theschooltobettercarryoutteachingwork andimprovethe qualityofteaching.
项目名称
大学物理,模拟电子技术和计算机构成原理成绩的关系分析
项目简介
大学物理,是大学理工科类的一门基本课程,通过课程的学****使学生熟悉自然界物质的构造,性质,互相作用及其运动的基本规律,为后继专业基本与专业课程的学****及进一步获取有关知识奠定必要的物理基本。但工科专业以力学基本和电磁学为重要授课。通过课程的学****使学生逐渐掌握物理学研究问题的思路和措施,在获取知识的同步,使学生拥有的建立物理模型的能力,定性分析、估算与定量计算的能力,独立获取知识的能力,理论联系实际的能力都获得同步提高与发展。开阔思路,激发摸索和创新精神,增强适应能力,提高其科学技术的整体素养。通过课程的学****使学生掌握科学的学****措施和形成良好的学********惯,形成辩证唯物主义的世界观和措施论。
《计算机构成原理》是计算机科学与技术专业的一门核心专业基本课。通过本课程的学****使学生掌握计算机系统的基本构成、计算机中数据的表达措施、计算机各硬件部件的功能和工作原理等,为学生学****计算机专业课打下坚实的基本。
项目工具
系统:win10
软件:office,anaconda
Microsoft OfficeWord是微软公司的一种文字解决器应用程序。Word给顾客提供了用于创立专业而优雅的文档工具,协助顾客节省时间,并得到优雅美观的成果。始终以来,MicrosoftOffice Word 都是最流行的文字解决程序。作为 Office 套件的核心程序,Word
提供了许多易于使用的文档创立工具,同步也提供了丰富的功能集供创立复杂的文档使用。哪怕只使用Word应用一点文本格式化操作或图片解决,也可以使简朴的文档变得比只使用纯文本更具吸引力。
OfficeExcel
MicrosoftExcel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、杰出的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据解决软件。在1993年,作为Microsoft ,Excel就开始成为所合用操作平台上的电子制表软件的霸主。
:
Anaconda指的是一种开源的Python发行版本,其涉及了conda、Python等180多种科学包及其依赖项。 可以用于在同一种机器上安装不同版本的软件包及其依赖,并可以在不同的环境之间切换。Anaconda涉及Conda、Python以及一大堆安装好的工具包,例如:numpy、pandas等。
数据文献预解决
在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至也许导致挖掘成果的偏差,因此进行数据清洗就显得尤为重要,数据清洗完毕后接着进行或者同步进行数据集成、变换、规约等一系列的解决,该过程就是数据预解决。数据预解决一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。
:
(1)数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、辨认或删除离群点并解决不一致性来“清理”数据。重要是达到如下目的:格式原则化,异常数据清除,错误纠正,反复数据的清除。
(2)数据集成
数据集成例程将多种数据源中的数据结合起来并统一存储,建立数据仓库的过程事实上就是数据集成。
(3)数据变换
通过平滑汇集,数据概化,规范化等方式将数据转换成合用于数据挖掘的形式。
(4)数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表达,它小得多,但仍然接近于保持原数据的完整性,并成果与归约前成果相似或几乎相似。
由于数据文献信息较多且有诸多数据和本课题无关,为了减少资源和时间的挥霍,因此在进行分析前先将excel表格进行删减和求和,优化数据,使数据更加直观便于分析。
解决前数据如图4--2所示。
图4-1表格数据解决前
4-2解决后数据
import pandasaspd
catering_sale='G:/'
data=(catering_sale,index_col=u'学生')
print(())
print(len(data))
图4-3数据初筛成果
上图中Count代表数量,Mean代表均值,Std 代表原则差,Min代表最小值,50% 代表中位数,Max代表最大值。
异常值是指样本中的个别值,也称为离群点,其数值明显偏离其他的观测值。异常值分析是检查数据与否有录入错误以及具有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值涉及进数据的计算分析过程中,对成果会产生不良影响;注重异常值的浮现,分析其产生的因素,常常成为发现问题进而改善决策的契机。异常值是指样本中的个别值,其数值明显偏离其他的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。
(1)简朴的记录量分析:
我们可以先对采集到的数据做一种描述性的估计,。
(2)箱型图分析
箱型图是判断是判断数据的异常值的最为直观的一种措施,,并不是说在这样的范畴内的数都是异常值,但是可以肯定的是,异常值是一定在这里产生的。为了一方面感知我们数据的基本状况,在
Python的Pandas库中,只需要读入要解决的数据,然后使用describe()函数,,例如说可以查看缺失值,最小值,最大值等。
这里我们使用了箱型图分析,异常值检测代码如下:
importpandasaspd
catering_sale='G:/'
data=(catering_sale,index_col=u'学生')
['-serif']=['SimHei']
['']=False
()
p=(return_type='dict')
x=p['fliers'][0].get_xdata()
y=p['fliers'][0].get_xdata()
()
for i in range(len(x)):
ifi>0:
(y[i],xy=(x[i],y[i]),xytext=(x[i]+-/(y[i]-y[i-1]),y[i]))
else:
(y[i],xy=(x[i],y[i]),xytext=(x[i]+,y[i]))
()
得到的检查成果如下图 2-6所示: