1 / 13
文档名称:

大数据时代,实时数据分析才是真理.docx

格式:docx   大小:1,224KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据时代,实时数据分析才是真理.docx

上传人:今晚不太方便 2017/5/12 文件大小:1.20 MB

下载得到文件列表

大数据时代,实时数据分析才是真理.docx

文档介绍

文档介绍:大数据时代,实时数据分析才是真理编辑整理/智库 2861 概述:随着大数据时代的来临,如何帮助用户从大量信息中迅速获得对自己有用的信息成为众多商家的重要任务,个性化推荐系统应运而生。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已广泛应用于很多领域。传统的个性化推荐系统,采用定期对数据进行分析的做法来更新模型。由于是定期更新,推荐模型无法保持实时性,对用户当前的行为推荐结果可能不会非常精准。实时个性化推荐实时分析用户产生的数据,可以更准确地为用户进行推荐,同时根据实时的推荐结果进行反馈,更好地改进推荐模型。 1. 大数据实时计算平台大数据实时计算平台 TRC[1] 由实时数据接入 TDBank 、实时数据处理 TDProcess 、和分布式 K-V 存储 TDEngine 等部分组成,其中 TDBank 主要负责从业务侧接入实时数据,如用户行为数据、物品信息数据等;TDProcess 基于 Storm 对实时流入的数据进行计算,并利用 TDEngine 存储计算结果,以供推荐引擎等使用。 TRC 的主要框架如上图所示,有关 TRC 的文章已经有很多,这里不作详述, 有兴趣的读者可以参考文章[1] 获得详细描述。 2. 推荐算法实时化基于 Storm 的实时计算能够针对海量流式数据进行有效的统计处理,然而流式计算在机器学习算法方面有着天然的劣势,而要完成大数据实时推荐,只是实时统计显然是不够的,我们希望能实现推荐算法的实时化更新计算。流式实时计算在机器学习方面的局限性主要表现在两方面:首先,由于数据是以流的形式进入 Storm 平台计算,在任何时刻,我们都只有目前流入的数据, 而没有传统的全局数据概念,而在全局数据上进行迭代计算正是许多机器学台是计算数据易失的,在海量数据背景下,如何保证模型的有效存储及更新维护成为一个挑战。对于上述第二点不足,我们使用了 TDE 作为解决方案, TDE 作为一个高容错、高可用性的分布式 K-V 存储,很好的满足了我们对计算数据的存储需求。而对于第一点不足,我们通过精细的设计,将原始的离线计算转化为增量计算, 并实现了几类经典算法: CF 算法:协同过滤算法,根据当前时间用户对物品的行为,实时更新物品间的共现数据和用户的兴趣分布数据,以计算物品间和用户间的相似度,进行基于物品或用户的协同推荐。 CB 算法:通过分析用户的实时行为数据,更新计算用户和不同物品间的内容相似度,以对用户进行推荐。 Hot 算法:通过接收所有用户的实时行为数据,实时更新物品的热度,分析得到当前的热点物品,如实时热点新闻等,以对用户进行实时的推荐。 MF 算法:协同过滤矩阵分解算法,根据用户对物品的行为评分矩阵,将矩阵分解为用户和物品的特征向量,以预测用户对物品的喜好,来进行推荐。实现框架下图为基于 Storm 实现的框架图,系统可以分为五层,数据接入层,数据预处理层,算法处理层,商品信息补充层,和存储层。数据接入层负责接收数据, 预处理层负责根据历史数据对数据进行补全或者过滤等。算法处理层,是系统的主体部分,负责对数据进行分析处理,实现相关推荐算法的计算,将算法结果传入下一层。商品信息补充层负责对算法结果进行商品信息补全,这里补全是为了后续与离线模型结合或向用户推荐时,进一步对推荐结果做筛选的。最后一层是存储层,负责将结果存入存储部分,以供使用。数据接入层数据接入层负责接入数据,并且做简单的检查,对应 TdbankSpout 。通用推荐平台接收的数据共有五类,包括类别数据,行为权重数据,商品属性,用户属性,以及用户行为数据。类别数据:是各个商品的类别的描述和等级,用于基础数据统计行为权重数据:各个行为的权重,用于基础数据统计商品属性:各个商品的基本属性,基础数据统计用户属性:用户的基本属性,基础数据统计用户行为数据:记录了用户的行为,是系统主要要分析的数据。数据预处理层包括两个部分,一个是基础信息构建,对应的 bolt 是 BaseInfoBolt ,一个是对用户行为数据进行预处理,对应的是 PretreatmentBolt 。基础信息构建接受类别、行为权重、商品属性和用户属性四种数据,并存入相应的 table 。预处理 bolt 接受用户行为数据,根据用户群信息和历史数据对用户行为记录进行补全或者过滤等。算法处理层算法处理层是系统的主体部分,又可以分为数据统计部分和算法计算部分。数据统计部分包括用户详细信息统计,最近访问商品统计,人群行为数据统计, 人群商品共现数据统计,场景 Ctr 统计等。算法计算部分实现了 CF , MF , Hot , CB 等算法。这里对算法进行描述。商品信息补全层商品信息补充层负责对算法结果进行商品信息补全,这里补全是为了后续与离线模型结

最近更新

2020—2021年人教版二年级数学上册期中考试题.. 6页

2020—2021年部编人教版一年级语文上册期末试.. 6页

2020—2021年部编版一年级数学上册期中考试卷.. 6页

2020—2021年部编版一年级语文上册期末测试卷.. 6页

2020—2021年部编版二年级数学上册期中考试(最.. 6页

2020—2021年部编版二年级语文上册期中考试卷.. 5页

2020—2021年部编版四年级语文上册期中测试卷.. 7页

2020—2021年部编版四年级语文上册期末考试卷.. 7页

中医基础理论课件藏象概论 22页

2020年二年级数学上册一单元试卷及答案新版(四.. 28页

2020年人教版一年级数学上册三单元试卷及答案.. 13页

2020年人教版一年级数学上册第一次月考试题及.. 45页

2020年人教版一年级语文上册期中真题试卷及答.. 11页

2020年人教版二年级数学上册三单元模拟题及答.. 19页

学习华西村老书记“群众观 2页

2020年人教版二年级语文上册第二次月考试卷及.. 9页

2020年人教版年级语文上册期末试卷及答案完整.. 18页

2020年部编人教版一年级数学上册四单元试题及.. 24页

2020年部编版二年级数学上册三单元模拟题及答.. 13页

专递课堂网络教学应用试点介绍公开课一等奖课.. 26页

2021年一年级语文上册期中测试卷(附答案) 7页

2021年三年级语文上册期中测试卷(通用) 7页

2021年三年级语文上册期末考试题及答案【审定.. 6页

2021年二年级语文上册期中考试卷及答案【真题.. 4页

2021年五年级道德与法治(上册)月考试题及答案.. 5页

2021年人教版一年级数学(上册)期中试卷(附参考.. 6页

2021年人教版一年级语文下册期末考试卷(各版本.. 4页

2021年人教版二年级数学(上册)期中试题及答案.. 6页

2021年人教版五年级语文下册期中考试卷及答案.. 7页

2021年人教版六年级语文(下册)期中练习及答案.. 7页