1 / 16
文档名称:

数据挖掘课程设计.docx

格式:docx   大小:158KB   页数:16页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘课程设计.docx

上传人:非学无以广才 2022/12/6 文件大小:158 KB

下载得到文件列表

数据挖掘课程设计.docx

文档介绍

文档介绍:该【数据挖掘课程设计 】是由【非学无以广才】上传分享,文档一共【16】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘课程设计 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘 报 告
目 录
5
5
5
6
6
: 6
7
: 7
(1)数据清理 7
(2)数据集成 7
(3)数据变换 8
(4)数据归约 8
10
(1)简单的统计量分析: 10
(2)箱型图分析 10
12
12
14
: 14
15
16
摘要
学生成绩是反映学校教学水平的第一手资料,这些数据可觉得学校改善教育教学提供重要根据。然而,现阶段的学生成绩分析,多数还停留在较为原始的数据库管理和查询阶段,没有对学生的成绩进行横向和纵向的对比研究,也缺少对各学科成绩之间内在联系的挖掘。为此,学校将数据挖掘技术与学校学生成绩分析管理系统相结合,通过度析和解决系统中大量的学生成绩数据,寻找潜在的规律及模式,促使学校更好地开展教学工作,提高教学质量。
Abstract
Student achievementisthe first-hand informationreflecting theteachinglevel ofa school. These data canprovideanimportant basisforschoolstoimproveeducation and ,atthisstage, mostof the students'performance analysisstillstays intherelativelyprimitivestage ofdatabasemanagementand query. Thereisnohorizontaland verticalcomparativestudyofstudents'performance,noristhereanyexcavationoftheinternallinksbetweenthe performanceof ,theschoolcombinesthedataminingtechnologywiththeschoolstudentachievementanalysismanagement large numberofstudentachievementdata,theschool seeks for potentialrules andpatterns,andpromotes theschooltobettercarryoutteachingwork andimprovethe qualityofteaching.
项目名称
大学物理,模拟电子技术和计算机构成原理成绩的关系分析
项目简介
大学物理,是大学理工科类的一门基本课程,通过课程的学****使学生熟悉自然界物质的构造,性质,互相作用及其运动的基本规律,为后继专业基本与专业课程的学****及进一步获取有关知识奠定必要的物理基本。但工科专业以力学基本和电磁学为重要授课。通过课程的学****使学生逐渐掌握物理学研究问题的思路和措施,在获取知识的同步,使学生拥有的建立物理模型的能力,定性分析、估算与定量计算的能力,独立获取知识的能力,理论联系实际的能力都获得同步提高与发展。开阔思路,激发摸索和创新精神,增强适应能力,提高其科学技术的整体素养。通过课程的学****使学生掌握科学的学****措施和形成良好的学********惯,形成辩证唯物主义的世界观和措施论。
《计算机构成原理》是计算机科学与技术专业的一门核心专业基本课。通过本课程的学****使学生掌握计算机系统的基本构成、计算机中数据的表达措施、计算机各硬件部件的功能和工作原理等,为学生学****计算机专业课打下坚实的基本。
项目工具
系统:win10
软件:office,anaconda

Microsoft OfficeWord是微软公司的一种文字解决器应用程序。Word给顾客提供了用于创立专业而优雅的文档工具,协助顾客节省时间,并得到优雅美观的成果。始终以来,MicrosoftOffice Word 都是最流行的文字解决程序。作为 Office 套件的核心程序,Word
提供了许多易于使用的文档创立工具,同步也提供了丰富的功能集供创立复杂的文档使用。哪怕只使用Word应用一点文本格式化操作或图片解决,也可以使简朴的文档变得比只使用纯文本更具吸引力。
OfficeExcel
MicrosoftExcel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、杰出的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据解决软件。在1993年,作为Microsoft ,Excel就开始成为所合用操作平台上的电子制表软件的霸主。
:
Anaconda指的是一种开源的Python发行版本,其涉及了conda、Python等180多种科学包及其依赖项。 可以用于在同一种机器上安装不同版本的软件包及其依赖,并可以在不同的环境之间切换。Anaconda涉及Conda、Python以及一大堆安装好的工具包,例如:numpy、pandas等。
数据文献预解决
在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至也许导致挖掘成果的偏差,因此进行数据清洗就显得尤为重要,数据清洗完毕后接着进行或者同步进行数据集成、变换、规约等一系列的解决,该过程就是数据预解决。数据预解决一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。
:
(1)数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、辨认或删除离群点并解决不一致性来“清理”数据。重要是达到如下目的:格式原则化,异常数据清除,错误纠正,反复数据的清除。
(2)数据集成
数据集成例程将多种数据源中的数据结合起来并统一存储,建立数据仓库的过程事实上就是数据集成。
(3)数据变换
通过平滑汇集,数据概化,规范化等方式将数据转换成合用于数据挖掘的形式。
(4)数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表达,它小得多,但仍然接近于保持原数据的完整性,并成果与归约前成果相似或几乎相似。
由于数据文献信息较多且有诸多数据和本课题无关,为了减少资源和时间的挥霍,因此在进行分析前先将excel表格进行删减和求和,优化数据,使数据更加直观便于分析。
解决前数据如图4--2所示。
图4-1表格数据解决前
4-2解决后数据
import pandasaspd
catering_sale='G:/'
data=(catering_sale,index_col=u'学生')
print(())
print(len(data))
图4-3数据初筛成果
上图中Count代表数量,Mean代表均值,Std 代表原则差,Min代表最小值,50% 代表中位数,Max代表最大值。

异常值是指样本中的个别值,也称为离群点,其数值明显偏离其他的观测值。异常值分析是检查数据与否有录入错误以及具有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值涉及进数据的计算分析过程中,对成果会产生不良影响;注重异常值的浮现,分析其产生的因素,常常成为发现问题进而改善决策的契机。异常值是指样本中的个别值,其数值明显偏离其他的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。
(1)简朴的记录量分析:
我们可以先对采集到的数据做一种描述性的估计,。
(2)箱型图分析
箱型图是判断是判断数据的异常值的最为直观的一种措施,,并不是说在这样的范畴内的数都是异常值,但是可以肯定的是,异常值是一定在这里产生的。为了一方面感知我们数据的基本状况,在
Python的Pandas库中,只需要读入要解决的数据,然后使用describe()函数,,例如说可以查看缺失值,最小值,最大值等。
这里我们使用了箱型图分析,异常值检测代码如下:
importpandasaspd
catering_sale='G:/'
data=(catering_sale,index_col=u'学生')

['-serif']=['SimHei']
['']=False
()
p=(return_type='dict')
x=p['fliers'][0].get_xdata()
y=p['fliers'][0].get_xdata()
()
for i in range(len(x)):
ifi>0:
(y[i],xy=(x[i],y[i]),xytext=(x[i]+-/(y[i]-y[i-1]),y[i]))
else:
(y[i],xy=(x[i],y[i]),xytext=(x[i]+,y[i]))
()
得到的检查成果如下图 2-6所示:

最近更新

洋葱皮中类黄酮化合物的提取分离、纯化以及结.. 2页

泰国大学生汉语方式副词偏误分析的中期报告 2页

2024年单证员的实习报告集锦10篇 17页

初级会计职称会计实务经济法基础培训讲课视频.. 5页

化工用水循环轴流泵导叶结构改进设计分析 4页

泛耐药鲍曼不动杆菌的耐药机制及院内感染的流.. 2页

医院管理公司托管、兼并模式探讨 6页

法律监管视角下的中国农村金融服务可获性研究.. 2页

古诗词鉴赏 智慧树知到网课章节测试答案 11页

固定资产借款合同范本(4篇) 29页

治疗短鼻畸形的可控性膨胀材料的实验研究的综.. 2页

油气长输管线补口补伤中提高3PE防腐效果研究的.. 2页

2024年单位年度工作报告 68页

2024年单位审车委托书11篇 7页

河南省女篮投篮技术训练方法与效果研究的中期.. 2页

2024年单位劳务合同(15篇) 50页

河南永城一中多媒体历史教学调查研究的中期报.. 2页

2024年协会申请书模板汇总六篇 10页

2024年半年租房合同 9页

沉水植物在氯霉素污染的营养水体中对氮磷的去.. 2页

沈阳市财政办公自动化系统的设计与实现的综述.. 2页

汽车荷载对桥梁不同截面的冲击效应分析的中期.. 2页

新编直流电机双闭环调速大作业 26页

汽车制造企业工作现场人力资源管理与其绩效关.. 2页

正大集团行业分析 27页

2023电子政务概论形考册答案 14页

六年级纪律主题班会课件 23页

中华人民共和国职业病防治法(2023年最新修订).. 19页

中国银行股份公司员工违规行为处理办法 3页

坚持党对法院工作的绝对领导党对法院工作领导.. 6页