文档介绍:电商搜索和新闻推荐用户画像--近实时更新王成光 -7-10
电商搜索和新闻推荐用户画像培训课件
第1页
电商搜索和新闻推荐用户画像实时更新
电商搜索
基本组成
相关实现技术
新闻推荐用户画像
用户画像组成
用户画像实时更新为analyzer
:
得到查询详细分析信息,它能够让你了解和调试查询性能。查询每一部分都独立统计了统计时间
:
几乎重写,增加50%入库效率, 提升20-50%查询效率
-7-10
14
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第14页
新闻推荐用户画像实时更新
用户画像基本组成
内容体系分类
更新周期分类
用户画像实时更新流程
流式分布式实时计算
Strom
SparkStreaming
Light_drtc (原创:)
-7-10
15
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第15页
用户画像基本组成—内容分类
baidu数据开放平台大数据用户画像标签体系 -web/introduce_datax
-7-10
16
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第16页
用户画像基本组成—更新周期分类
依据属性改变频繁程度:
静态标签
相对短时间内改变不大信息,主要指地域、年纪、性别、文化、 职业、收入、
生活****惯、消费****惯等人口属性和商业属性等
动态标签
用户不停改变行为信息,主要指产品类别、活跃频率、产品喜好、
产品驱动、使用****惯、产品消费等产品行为,在互联网上,用户行为,
能够看作用户动态信息唯一数据起源等
依据更新时间长短:
长久兴趣标签:更新频率普通为数小时或天
短期兴趣标签:更新频率普通为分钟级或秒级
-7-10
17
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第17页
用户画像计算相关算法
内容相同
Jaccard |S ∩ T|/|S ∪ T|
余弦定理
修正余弦
皮尔逊相关系数
-7-10
18
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第18页
用户画像计算相关算法
关联规则
支持度(Support),表示项集{X,Y}在总项集里出现概率。
公式为:Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)
置信度 (Confidence),置信度表示在先决条件X发生情况下,由关联规则“X→Y”推出Y概率。即在含有X项集中,含有Y可能性。
公式为:Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)
提升度(Lift),提升度表示含有X条件下,同时含有Y概率,与不含X条件下却含Y概率之比。
公式为: Lift(X→Y) = P(Y|X) / P(Y)
强关联规则:满足最小支持度和最小置信度规则。
假如Lift(X→Y)>1,则规则“X→Y”是有效强关联规则。
假如Lift(X→Y) <=1,则规则“X→Y”是无效强关联规则。
尤其地,假如Lift(X→Y) =1,则表示X与Y相互独立。
-7-10
19
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第19页
用户画像计算相关算法
协同过滤:基于user协同过滤和基于item协同过滤
-7-10
20
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第20页
用户画像计算相关算法
主题模型
逻辑回归
兴趣时间衰减
牛顿冷却定理:物体冷却速度,与其当前温度与室温之间温差成正比。
本期得分 = 上一期得分 x exp(-(冷却系数) x 间隔小时数)
-7-10
21
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第21页
新闻推荐用户画像实时更新流程
-7-10
22
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第22页
实时计算框架Storm
-7-10
23
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第23页
实时计算框架Storm
-7-10
24
电商搜索和新闻推荐
电商搜索和新闻推荐用户画像培训课件
第24页
实时计算框架Spark Streaming
-7-10
25
电商搜索和新闻推荐
电商搜