1 / 13
文档名称:

最新大众点评网数据分析.doc

格式:doc   大小:296KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

最新大众点评网数据分析.doc

上传人:朱老师 2022/4/17 文件大小:296 KB

下载得到文件列表

最新大众点评网数据分析.doc

相关文档

文档介绍

文档介绍:群众点评网数据分析

广西大学数学与信息科学学院
商务智能课程论文
题目:商务智能在群众点评中的应用

小组成员:1111200139 蓝承妙是一种基于树的分类和预测方法,模型使用简单,易于理解〔规那么解释起来更简明易〕,该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。
目的
通过分析数据中存在的预测因子变量,如店铺的环境等级、产品等级和效劳等级等预测并分类,为新用户在选择是否光临某家店铺提供决策依据。
数据整理
原始数据中包含的内容多而繁杂,为了方便研究,我们从中筛选了涉及店家评价的数据项avg_price、product_rating、environment_rating、service_rating、very_good_remarks、good_remarks、common_remarks、bad_remarks、very_bad_remarks进行整理,将very_good_remarks、good_remarks、common_remarks这三个字段处理为积极评价,字段jiji的值为这三个字段的总和,视为对该店家的积极评价,将bad_remarks、very_bad_remarks这二个字段处理为消极评价,字段xiaoji的值为这二个字段的总和,为该店家的消极评价。新增字段hh取值为0和1,判定该店铺是否值得新客户选择,如果该店铺消极评价(xiaoji)的值小于总评价〔jiji+xiaoji〕的10%,那么认为该店铺值得选择,hh的值为1;反之,那么为0,该店铺不值得选择。
整理后的数据:avg_price、product_rating、environment_rating、service_rating、hh。
创立决策树
将整理后的数据添加到SPSS工作区域,再添加一个类型节点。在类型节点中,选择Read Value来为指定的字段读取数据。选择hh字段,将其type设为Flag,Direction设为Out,如图1所示。其余所有字段都作为预测因子变量,将Direction设为In。
图1 在类型节点中设置相关参数
在类型节点上连接一个C&RT节点,设置其参数,选择简单模式〔Simple Mode〕,如图2所示。
图2 Simple标签
运行C&RT节点,出现交互式窗口,完全展开的决策树如图3所示。
图3 C&RT决策树
分析决策树
从图3可以看到第一层的划分是根据product_rating,第二层的划分根据environment_rating,第三层service_rating。从节点1中,,那么该店家值得光临;,那么可以参考其环境评分,,说明其环境优美,值得光临;同理,,那么可参考其员工效劳质量。从店铺角度也能通过该决策树以及其自身在群众点评网上的各项评分来做相应的调整,以提高自身的收益。
评估模型
根据创立当前决策树生成评估模型〔Generate Model〕hh1,工作区中将hh1与类型节点连接起来,在模型设置标签中选择“Calculate confidence〞和“Rule identifier〞,如图4所示。最后,连接一个数据表节点,并运行当前数据流,如图5所示。
图4 计算置信度与规那么识别
图5 数据流示意图

运行后的数据表列出了那些有可能群众点评中总评价好的美食店家记录,如图6所示。$R-hh列的值说明预测结果,假设其值为1,预测该店家值得新用户光临。
图6 数据表

小结
通过整理原始数据中群众对1000家全国各地的店家的积极、消极评价,分析预测因子变量,例如avg_price、product_rating、environment_rating、service_rating,可以预测并分类1000家店铺是否值得光临,并且能够为提高店家自身评价、收益做出决策。
三、关联规那么分析
目的
根据群众点评网上提及的店铺提供的美食分类来研究各省份受欢送的美食,从而可以得出该省份的饮食****惯。
数据整理
选取原始数据中的province、city、area、small_cate字段,进行筛选。记录所有的small_cate,假设某省