文档介绍:个体差异对Python爬虫获取教育大数据影响研究一、引言伴随着“互联网+”、物联网、云计算时代到来,大数据在我们生产生活中扮演着越来越重要角色,可以说大数据已经渗透到每一个行业。联合国在2012年发布大数据白皮书《BigDataforDevelopment:Challenges&Opportunities》中指出大数据出现将会对社会各个领域产生深刻影响。[1]在教育领域,每天都会产生海量教育大数据,[2]获取教育大数据途径也有很多,例如线下调查、在线搜索、网络调查问卷与网络爬虫等等。本研究为了剖析个体差异对教育大数据获取途径影响,对计算机、统计学相关专业师生编程能力、Python技术掌握程度以及获取教育大数据途径进行了调查。 Python是一种面向对象解释性计算机程序语言,其实它问世时间并不长,但它以其简洁语法、丰富标准库与强大第三方库,已经完全能够与C、C++等语言轻松联结,并重写封装为可用标准类库,易于扩展。[2]Python现已逐渐取代其他大多数计算机编程语言,成为现在网络爬虫与机器学习主流工具。教育大数据为教育信息化发展带来了新机遇,[3]传统数据收集方法已不能满足日新月异现代化发展需求,随着网络爬虫与Python语言发展,网络教育数据获取越来越容易,越来越方便,速度越来越快,但对计算机语言使用熟悉程度也有一定考验。那么如何在大量教育数据中获取我们所需要、有用信息是每一个教育研究者应该考虑问题。二、相关概念 (又称网络蜘蛛、网络机器人),是一种按照一定规则,自动地抓取万维网信息程序或者脚本。[4]网络爬虫按照系统结构与实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。[4]实际网络爬虫是由几种爬虫技术结合实现。随着“互联网+”发展,网络信息量呈现出爆发式增长,仅仅只用搜索引擎已经不能快速、准确地获取到我们所需要信息,并且会附带着额外我们不需要广告信息,因此,网络爬虫应运而生。 ,广义教育大数据泛指所有来源于日常教育活动中人类行为数据;狭义教育大数据是指学习者学习行为数据。[5]也有学者认为教育大数据指整个教育活动过程中所产生以及根据教育需要采集到,一切用于教育发展并可创造巨大潜在价值数据集合。[6]教育,体现是一种共享思想,通过各种技术实现教育数据收集,本研究主要是了解网络教育数据获取。三、研究过程 、统计学相关专业Python爬虫技术掌握情况以及常用获取教育数据方式,比较不同个体之间获取教育大数据区别,从而剖析不同个体Python掌握程度、学习编程年限、主观因素对获取教育大数据影响。 Python语言虽然得到极大发展,但全国很多高校并没有把Python语言作为一门课程,学生对之了解太少,技术掌握不够,爬虫技术也不是每一个计算机专业人都会掌握。因此,我们大胆假设:近几年获取教育大数据主要途径还是在线搜索,并且学生与老师之间存在显著差别。 (1)设计过程问卷调查为本文主要研究方法,为保证本研究公正、客观,在进行调查问卷设计之前,笔者查阅了相关文献,之后初步编写了适合本研究调查问卷,随后请老师对本问卷进行评价,给出了宝贵意见,并对问卷内容进行适当修正;之后进行小范围前测,删除其中信度与效度较