文档介绍：硕士学位论文

基于海量数据挖掘的知识学习效果预测方法
研究

STUDY ON PREDICTION METHOD FOR
KNOWLEDGE LEARNING EFFECTS BASED ON
MASSIVE DATA MINING

叶小拉

哈尔滨工业大学
2011 年 12 月
-
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开

工学硕士学位论文

基于海量数据挖掘的知识学习效果预测方法
研究

硕士研究生: 叶小拉
导师: 王轩教授
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 深圳研究生院
答辩日期: 2011 年 12 月
授予学位单位: 哈尔滨工业大学

I
Classified Index:
:

Dissertation for the Master Degree of Engineering

STUDY ON PREDICTION METHOD FOR
KNOWLEDGE LEARNING EFFECTS BASED ON
MASSIVE DATA MINING

Candidate: Xiaola Ye
Supervisor: Prof. Wang xuan
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science
Affiliation: Shenzhen Graduate School
Date of Defence: December, 2011
Degree-Conferring-Institution: Harbin Institute of Technology

II
哈尔滨工业大学工学硕士学位论文
摘要
随着人类生活进入信息社会,以信息技术为核心的信息时代对教育领域产生了
深刻的影响,并将成为教育改革的技术基础与动力。数据教育挖掘也随之成为一个
新兴的、备受关注的研究方向。显而易见,教育领域的各类数据将随着信息化的发
展而极速增加,人们也因此开始思考如何从这些海量和复杂繁冗数据中获取有用的
信息,并将这些信息用以提高人类教育水平和学习效率。正是这一问题的提出使教
育数据挖掘意义重大。
本文针对如何更好地从海量数据中挖掘出对学习者有用的信息,并为教育决策
部门与机构提供有用的参考信息而提出基于海量数据挖掘的知识学习效果预测方
法研究。该系统以训练学生数学答题行为为模型,根据其以往行为表现,预测学生
将来的答题准确率,从而达到对学生学习效果的评测,并及时根据学生学习效果调
整教学过程。本系统主要包括以下两部分。
(1)特征生成阶段。根据学生与学校的智能辅导教学系统的交互日志对数据进
行分析,并选择合适特征。因为原始数据集属性复杂,记录间有时间先后顺序且数
据量大等特点,本文在特征提取部分工作主要包括:使用基于时间特征的方法生成
验证数据集,对原始数据集的部分复杂结构属性,如组合属性进行分离处理。因为
学生学习过程会随着时间的变化而变化,为克服测试集无时间属性转而针对原始数
据集的特点进行其他时间特征生成。此外,在本文中为了对更好地表示分类器输入,
还将对特征进行归一化与二值化处理,并用稀疏矩阵表示。
(2)学习效果预测阶段。为了达到较好的实验结果,本文主要尝试使用了两种
分类器,一种是K-近邻算法,并在两个方面改进了该算法,另一种是逻辑回归。对
K-近邻的改进,本文将改进过程中涉及到的权值调整进行了大量的实验,主要是为
了使其在大数据集上能够训练出结果,并且训练、分类的时间可以让人接受。对于
逻辑回归,本文采用原始数据集升维方式将非线性问题转化为线性问题,其中逻辑
回归中使用的调整参数的方法为梯度下降法。
经实验,在小数据集上,K-近邻算法的训练速度以及分类效果可以接受,但在
大数据集上表现不佳,而逻辑回归方法在本问题上的表现较好,训练速度较快,分
类结果也比较正确。本文还展示了两个算法在不同特征选取下的实验结果。最终本
文的分类结果在KDD CUP 2010 student team排第十二名。

关键词:教育数据挖掘; 特征生成; K-近邻; 逻辑回归
I
哈尔