文档介绍:: .
比赛题目七:大数据环境下集成R语言的数据挖掘平台2013-02-2117:31:50来源:作者:【: .
比赛题目七:大数据环境下集成R语言的数据挖掘平台2013-02-2117:31:50来源:作者:【大中小】浏览:530次
第二届“中国软件杯”大学生软件设计大赛赛题
大数据环境下集成R语言的数据挖掘平台
赛题简介:介绍整个赛题的思路和整体要求
思路:
随着信息化的推进,企业产生了大量业务数据,其中蕴藏着大量未知的、潜在的信息。数据挖掘是一种新的商业信息处理技术,通过对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,可提取辅助商业决策的关键性信息。
开源软件R是当今相当流行的数据分析、统计制图语言,提供了丰富的分析模块和实用工具,在业界已得到广泛应用,可以从-。但是,最终用户并非都是数据分析专家,难以快速掌握和灵活运用R语言。为了充分发挥R语言的价值,为用户提供功能强大的分析工具,设计一个集成了R语言功能的、易用的数据挖掘平台意义重大。
另一方面,企业面对的数据量越来越大,大数据处理能力日趋重要,但传统的数据分析方法在大数据环境下面临诸多瓶颈。
整体要求:
设计一个能处理大数据的、以R语言作为数据分析引擎的“大数据环境下集成R语言的数据挖掘平台”,以解决企业在数据挖掘方面日益增长的需求。
赛题业务场景:描述赛题相关的真实企业业务背景。
从真实场景中,适当简化或者提炼出适合比赛的赛题场景
数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘应用效果都非常明显,尤其是在如银行、电信、保险、交通、零售(如超市)等商业领域。数据挖掘所能解决的典型商业问题包括:客户细分、交叉销售,以及客户流失性分析、客户信用评价、欺诈发现等等。
数据挖掘按照其功能以及应用来划分,主要有:分类、聚类、关联规则、时间序列等,可以应用到企业决策分析和管理的各个不同领域和阶段。
本题要求参赛队伍设计一个集成了R语言的数据挖掘平台。当用户登录到该平台以后,能够选择数据源,建立数据分析流程,选择分析方法,设置好分析参数,然后执行分析过程,并以图和表的形式展示分析结果。比如某销售经理登录系统以后,能够从现有业务数据库中选择销售记录和客户数据,选用系统提供的分类、聚类、关联规则、时间序列等数据分析模块进行计算,能够进行企业的客户类别分析、基于交叉销售的消费行为分析或进行销售预测,帮助企业识别价值客户,提高服务水平。
功能性需求
用户使用图形式化界面进行操作。用户可以设置数据来源,选择分析方法,设置分析参数,建立分析流程,不用编写R代码就能够进行数据分析,得出结果,但是具体的计算过程则是通过在底层调用R语言来实现的。也就是说要求使用R语言的分析功能,但要屏蔽R的复杂性;
系统至少要提供分类、聚类、关联规则、预测等至少2种数据挖掘分析方法,并且方法要有参数设计界面,允许用户通过调整参数,优化分析结果;