1 / 27
文档名称:

基于校园卡数据的大学生消费特征分析季震.pdf

格式:pdf   大小:1,235KB   页数:27页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于校园卡数据的大学生消费特征分析季震.pdf

上传人:1017848967 2018/1/4 文件大小:1.21 MB

下载得到文件列表

基于校园卡数据的大学生消费特征分析季震.pdf

相关文档

文档介绍

文档介绍:基于校园卡数据的大学生消费特征分析1
学院: 经济学院
专业: 应用统计
姓名: 季震、苏白、李杰
指导教师: 韩中
完成日期: 2015 年 6 月 26 日
1 注:该论文获得由中国统计教育学会举办的“2015 年(第四届)全国大学生统计建模大赛”大数据统计建
模类研究生组二等奖。
基于校园卡数据的大学生消费特征分析
南京财经大学季震、苏白、李杰
摘要
本文以可视化技术为数据呈现以及分析的主要手段,结合时间序列模型、
k-means 聚类以及 BootStrap 方法,对近八百万条的学生校园卡消费记录进行挖
掘、分析与预测,分析所采用的软件为 R。本文在利用时间序列乘法模型预测
的基础上,将学生按消费的习惯与特征分为六类人群,监测出 41 个异常值,并
依据每类人群的不同消费特征给出了提高校园中各餐饮中心服务水平和降低资
源浪费的政策建议,以期能够为提高校方管理和服务师生的水平提供科学的依
据。
关键词:可视化;R 语言;校园卡;数据挖掘
一、选题背景
(一)社会背景
随着的不断提高,对饮食也提出了新的要
求,人们的饮食观点开始由吃饱、吃好向营养、保健、长寿方向发展。当前消
费市场中,大学生作为一个特殊的消费群体正受到越来越大地关注,他们的饮
食消费内容在社会大背景影响下日益多样化。由于大学生年龄较轻,群体较特
别,他们有着不同于社会其他消费群体的消费心理和行为。就饮食消费而言,
大学生有其自身的特点,大学生的消费需求虽不能和一般人的消费相提并论,
但也不能绝缘分开。
(二)校园背景
大学校园一般占地较大,不同的餐饮消费中心相隔甚远,若不能够及时掌
握就餐消费人数的情况,会导致一些食堂人数爆满,一些食堂门可罗雀,导致
资源不能够有效利用。大学生的饮食消费行为是一个复杂的活动过程,它不是
孤立存在的,要受到诸多内外因素的影响,在同一群体内受多种等同或近似因
素的影响,有着相同或相似的消费需要、消费方式、消费结构和消费水平,所
以研究大学生的饮食消费,给出合理的建议,构建预测校园内各消费点的实时
消费人数模型具有重要意义。
1
(三)模型构建思路
在大数据的基础上利用时间序列模型进行分析预测,数据是利用某大学
2014 年度第二学期的所有在校学生信息、校园卡消费记录以及校园内的商户信
息,其中包括学生信息 30861 条、交易信息记录 7915289 条和商户信息 134 条,
此外还包括天气信息记录 26660 条。建模思路主要包括:

,探索消费量随时间变化的趋势,并加以预测


二、文献综述
统计学从诞生之时起就在不断的帮助人们从社会生活中找寻数据,并从数
据中发现价值。伴随着科学技术的发展,统计分析的方法和效率也在不断的改
善。统计学不可能停止前进的步伐,因为“数据”还有太多未解之谜,并且还在
不断增加新的谜面,尤其是随着大数据时代的来临数据含义不断拓展数据来源
不断增加,迫使统计学站在一个新的起点上。
(一)大数据的定义
目前,大数据的重要性有目共睹,但是对于大数据的定义却众说纷纭,我
们在此不做赘述。李金昌(2014)对于大数据的“大”给了一个令人信服的界定。
一是“全体”的意思,即大数据就是一定条件下的全体数据,并且数据量必须达
到一定的规模;二是“可扩充”的意思,即大数据就是可以不断扩充容量的数据,
任何数据一旦发生就可以被记录、被吸收、被储存,理解这一点非常重要;三
是“有待挖掘”的意思,即大数据是有待挖掘的数据。
本文研究的总体是某学校全体学生一个学期的在校园内的所有消费行为,
数据来源于校园卡系统交易数据特点符合大数据的特点,因此我们对于这个数
据的分析要结合当前大数据分析的特点来进行。
胡雄伟(2013)指出,大数据分析实际上可以理解为两个过程,一是把数
据由大变小的过程,比喻为物理过程;二是从处理过的大数据中提取价值的过
程,比喻为化学过程。
2
(二)相关研究

一幅图胜过千言万语,人类从外界获得的信息约有 80%以上来自于视觉系
统。数据可视化利用散点图、面积图、曲线图、曲面图、树形图、网络图等图
形图像来显示各种类型的数据,用形象直观的图像来指引数据分析的过程,使用
户加深对数据含义的理解,发现隐藏在数据背后难于察觉的现象,以此加快获
取知识的速度更全面的把握数据所表达的含义。
本文主要采用的统计方法多数是基于数据可视化进行,主要包括利用平行
坐标法辅助 k-means 聚类分析;时间序列预测法以及对于离

最近更新

高一班研究性学习成果汇报市公开课一等奖省赛.. 26页

个体化教育在超声聚焦子宫肌瘤无创治疗中的应.. 2页

两种化学预处理方法对小麦秸秆纤维素的影响 2页

东航技术虹桥维修基地首次完成A33E飞机座椅修.. 2页

丙酮酸脱氢酶竞争性抑制剂调控裂殖壶菌脂肪酸.. 2页

不同粒径大气颗粒物中金属元素含量及其免疫毒.. 2页

不同变质程度煤燃烧反应性及FTIR分析其热解过.. 2页

上海国家会展中心消防设计策略研究 2页

三聚氰胺磷酸盐的绿色合成及阻燃性研究 2页

三种无功优化线性规划建模方法的比较 2页

探索大数据,领航云时代-云计算与大数据的应用.. 23页

一种车辆模型辅助的MEMS-SINS导航方法 2页

一种新的系统化的固溶体理论:键参数函数和尺.. 2页

一种新型4H-SiC双极结型晶体管的研究 2页

预防脱发课件 21页

一种基于局部边缘保留滤镜的弱光增强新算法(.. 2页

一种基于Arcgis的野外地震勘探测量工序质量监.. 2页

项目一-资本运营理论与实务课件 36页

一株具有潜在益生特性屎肠球菌的筛选及在酸菜.. 2页

一个大气边界层非线性三维数值模式及其在太湖.. 2页

《汽车保险与理赔》课程项目化改革的研究 2页

《乡镇煤矿安全生产技术》系列录相片通过部级.. 2页

视网膜细胞移植疗效分析-洞察阐释 37页

高性能激光微加工材料研究-洞察阐释 36页

足球比赛秩序册 7页

农村污水处理长效管护机制 6页

关于旅行社质量保证金存款协议书 3页

西安市远东第二中学高一411开发利用金属矿物说.. 3页

YAMAHA数字调音台v中文使用说明书 5页

二年级下册列综合算式练习题 2页