1 / 13
文档名称:

大数据时代,实时数据分析才是真理.docx

格式:docx   大小:1,224KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据时代,实时数据分析才是真理.docx

上传人:今晚不太方便 2017/5/12 文件大小:1.20 MB

下载得到文件列表

大数据时代,实时数据分析才是真理.docx

文档介绍

文档介绍:大数据时代,实时数据分析才是真理编辑整理/智库 2861 概述:随着大数据时代的来临,如何帮助用户从大量信息中迅速获得对自己有用的信息成为众多商家的重要任务,个性化推荐系统应运而生。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已广泛应用于很多领域。传统的个性化推荐系统,采用定期对数据进行分析的做法来更新模型。由于是定期更新,推荐模型无法保持实时性,对用户当前的行为推荐结果可能不会非常精准。实时个性化推荐实时分析用户产生的数据,可以更准确地为用户进行推荐,同时根据实时的推荐结果进行反馈,更好地改进推荐模型。 1. 大数据实时计算平台大数据实时计算平台 TRC[1] 由实时数据接入 TDBank 、实时数据处理 TDProcess 、和分布式 K-V 存储 TDEngine 等部分组成,其中 TDBank 主要负责从业务侧接入实时数据,如用户行为数据、物品信息数据等;TDProcess 基于 Storm 对实时流入的数据进行计算,并利用 TDEngine 存储计算结果,以供推荐引擎等使用。 TRC 的主要框架如上图所示,有关 TRC 的文章已经有很多,这里不作详述, 有兴趣的读者可以参考文章[1] 获得详细描述。 2. 推荐算法实时化基于 Storm 的实时计算能够针对海量流式数据进行有效的统计处理,然而流式计算在机器学习算法方面有着天然的劣势,而要完成大数据实时推荐,只是实时统计显然是不够的,我们希望能实现推荐算法的实时化更新计算。流式实时计算在机器学习方面的局限性主要表现在两方面:首先,由于数据是以流的形式进入 Storm 平台计算,在任何时刻,我们都只有目前流入的数据, 而没有传统的全局数据概念,而在全局数据上进行迭代计算正是许多机器学台是计算数据易失的,在海量数据背景下,如何保证模型的有效存储及更新维护成为一个挑战。对于上述第二点不足,我们使用了 TDE 作为解决方案, TDE 作为一个高容错、高可用性的分布式 K-V 存储,很好的满足了我们对计算数据的存储需求。而对于第一点不足,我们通过精细的设计,将原始的离线计算转化为增量计算, 并实现了几类经典算法: CF 算法:协同过滤算法,根据当前时间用户对物品的行为,实时更新物品间的共现数据和用户的兴趣分布数据,以计算物品间和用户间的相似度,进行基于物品或用户的协同推荐。 CB 算法:通过分析用户的实时行为数据,更新计算用户和不同物品间的内容相似度,以对用户进行推荐。 Hot 算法:通过接收所有用户的实时行为数据,实时更新物品的热度,分析得到当前的热点物品,如实时热点新闻等,以对用户进行实时的推荐。 MF 算法:协同过滤矩阵分解算法,根据用户对物品的行为评分矩阵,将矩阵分解为用户和物品的特征向量,以预测用户对物品的喜好,来进行推荐。实现框架下图为基于 Storm 实现的框架图,系统可以分为五层,数据接入层,数据预处理层,算法处理层,商品信息补充层,和存储层。数据接入层负责接收数据, 预处理层负责根据历史数据对数据进行补全或者过滤等。算法处理层,是系统的主体部分,负责对数据进行分析处理,实现相关推荐算法的计算,将算法结果传入下一层。商品信息补充层负责对算法结果进行商品信息补全,这里补全是为了后续与离线模型结合或向用户推荐时,进一步对推荐结果做筛选的。最后一层是存储层,负责将结果存入存储部分,以供使用。数据接入层数据接入层负责接入数据,并且做简单的检查,对应 TdbankSpout 。通用推荐平台接收的数据共有五类,包括类别数据,行为权重数据,商品属性,用户属性,以及用户行为数据。类别数据:是各个商品的类别的描述和等级,用于基础数据统计行为权重数据:各个行为的权重,用于基础数据统计商品属性:各个商品的基本属性,基础数据统计用户属性:用户的基本属性,基础数据统计用户行为数据:记录了用户的行为,是系统主要要分析的数据。数据预处理层包括两个部分,一个是基础信息构建,对应的 bolt 是 BaseInfoBolt ,一个是对用户行为数据进行预处理,对应的是 PretreatmentBolt 。基础信息构建接受类别、行为权重、商品属性和用户属性四种数据,并存入相应的 table 。预处理 bolt 接受用户行为数据,根据用户群信息和历史数据对用户行为记录进行补全或者过滤等。算法处理层算法处理层是系统的主体部分,又可以分为数据统计部分和算法计算部分。数据统计部分包括用户详细信息统计,最近访问商品统计,人群行为数据统计, 人群商品共现数据统计,场景 Ctr 统计等。算法计算部分实现了 CF , MF , Hot , CB 等算法。这里对算法进行描述。商品信息补全层商品信息补充层负责对算法结果进行商品信息补全,这里补全是为了后续与离线模型结

最近更新

2025年天津财经大学珠江学院单招职业技能测试.. 60页

网络不正当竞争法律问题分析 3页

2025年天津财经大学珠江学院单招职业适应性测.. 62页

2025年天津铁道职业技术学院单招职业倾向性测.. 62页

数据库规范化理论 45页

生态纺织品的开发与应用-全面剖析 30页

2025年天津铁道职业技术学院单招职业技能测试.. 59页

2025年天津铁道职业技术学院单招职业适应性测.. 62页

2025年天门职业学院单招职业技能测试题库及答.. 63页

人力资源外包服务合同标准模板 6页

单细胞分析技术在优化输血流程中的策略研究-全.. 23页

2025年太原城市职业技术学院单招职业技能测试.. 62页

绿色供应链核心企业网络能力的维度结构——基.. 4页

2025年太原幼儿师范高等专科学校单招职业技能.. 60页

2025年班主任培优转差工作总结7篇 13页

综放工作面支架载荷估算方法 3页

2025年太原旅游职业学院单招职业技能测试题库.. 63页

金属有机骨架材料在室内空气质量改善中的作用.. 24页

2025年太原旅游职业学院单招职业适应性测试题.. 61页

综合型工程训练示范中心内涵建设的探索 3页

绳锯切割施工工艺研究 3页

2025年太湖创意职业技术学院单招职业适应性测.. 61页

2025年威海职业学院单招职业倾向性测试题库带.. 63页

2025年珍爱生命,远离危险作文 15页

第十六章新诗 24页

2025年张家界航空工业职业技术学院单招职业适.. 128页

2025年南京交通职业技术学院单招职业适应性测.. 128页

花海景观规划设计概念方案 4页

2017年06月四级真题第1套学习资料 10页

00034社会学概论(自考必备) 20页