文档介绍：基于SPSS的学生成绩影响因素分析
陈卓
济宁市兖州区第一中学
X
关注成功!
加关注后您将方便地在我的关注中得到本文献的被引频次变化的通知!
新浪微博
腾讯微博
人人网
开心网
豆瓣网
网易微博
摘    要:
“数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来。”互联网在日常运营中生成、累积了规模庞大的用户网络行为数据。用数据挖掘的方法有目的地收集和分析这些数据, 使之成为信息, 把隐没在杂乱无章的数据中的信息集中、萃取和提炼出来, 找出研究对象的内在规律, 是发挥数据价值的一种选择。本分析报告探究统计学意义上高中生学****成绩受哪些因素影响, 希望在熟悉数据挖掘等理论基础的同时, 能发掘有意义的研究价值, 给与正处于高中生活中的同学及家庭一些启迪。
关键词:
数据挖掘; SPSS; 决策树; 聚类; 关联分析;
1. 模型
基础的数据挖掘模型有决策树, 聚类分析, 关联分析, 神经网络、回归分析、时间序列等, 本报告选取前三种进行实验并分析结果。

决策树是根据数据生成规则的一种简捷高效的预测模型, 他代表的是对象属性与对象值之间的一种映射关系。易于理解和实现, 能够直接体现数据的特点, 能够同时处理数据型和常规型属性, 在相对短的时间内能够对大型数据源做出可行且效果良好的结果, 易于通过静态测试来对模型进行评测, 可以测定模型可信度, 给定一个观察的模型, 很容易根据决策树推出相应逻辑表达式。
模型也有一些缺点, 比如处理缺失数据时的困难, 过度拟合问题的出现, 以及忽略数据集中属性之间的相关性等。
操作步骤理解如下:
(1) 找分割点:贪心算法, 选当前纯度差最大的情况作为分割点。
(2) 分割成N1、N2。
(3) 对N1、N2重复1, 2, 直到每个节点足够“纯”。
纯度的度量:熵, 纯度差:信息增益, , 克服了用信息增益选择属性时偏向选择取值多的属性的不足。

聚类的作用是对未分类的、无规律的变量进行处理, 使这些数据能够反映出一定的规律性或特殊的分类性。
聚类可以用来对样品或者变量进行处理, 对n个样品进行聚类的方法称为Q型聚类, 常用的统计量称为“距离”;对m个变量进行聚类的方法称为R型聚类, 常用个统计量称为“相似系数”。
将样本聚类, 从分析结果可以得出各类的特点;将变量聚类, 可从大量指标中提取出主要因素, 在不造成巨大的信息丢失的同时减少指标数量。

关联分析用于发现大量数据中不同项之间的联系, 实际应用中可在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
其分析过程是挖掘满足具有最小支持度阈值的所有项集——频繁项集, 并在其中提取满足置信度的规则——强规则。
本实验中采用著名的Apriori算法, 作为挖掘产生布尔关联规则所需频繁项集的基本算法。
2. 实验

尝试爬取的数据很难清洗, 缺失值较多, 难以保证实验质量, 比较UCI、kaggle等网站数据后在UCI (.