1 / 8
文档名称:

【今日头条】文章推荐.docx

格式:docx   大小:29KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【今日头条】文章推荐.docx

上传人:mh900965 2018/1/25 文件大小:29 KB

下载得到文件列表

【今日头条】文章推荐.docx

文档介绍

文档介绍:文章推荐
机器能聪明地将文章精准地推荐给可能感兴趣的用户,是因为它既能「读懂」文章在讲什么,又能「猜出」用户想看到什么。
一、机器是怎样理解你的文章的?
在门户网站和传统新闻客户端上,哪些文章能上首页是由编辑们决定的,编辑们会在阅读完文章后,会决定是否将其推上版面。因为每个用户看到的页面都是相同的,编辑们的工作量虽然大,但还能够应付。
而在今日头条客户端上,每位用户的信息流都是完全不同的,如果5亿用户的信息流都交由编辑来推荐,则是一件不可能完成的任务。
但是机器可以做到,因为其「阅读」文章的方式,在速度上要远远胜过人类。
系统会对文章进行特征识别,从而判断文章讲的是什么类型和领域的内容。特征识别的维度有很多,在这里我们重点解释「关键词」。
系统会根据文章中出现的频率,提取出一些词语作为关键词,关键词的判定原则有二:
词频高:如一篇体育类文章内容关于某场足球比赛,那么文章可能会出现的高频词就包括球员名字、足球术语或技巧等,如「C 罗」、「射门」、「突破」。
同类文章中出现次数少:作者撰文时常用到的虚词、转折词等出现频率也很高,但它们不会作为关键词被提取出来,因为这些词在文章中是普遍存在的。
系统判定出一篇文章的关键词后,会将这些关键词与文章分类模型进行比对,命中哪些分类词库关键词的比例大,文章即被打上该分类的标签。如,一篇文章排名靠前的关键词为「C 罗」、「射门」、「西甲」、「马德里」,那么该篇文章可能会被打上「足球」、「国际足球」、「西班牙」等标签。机器便是这样,完成对文章的初步认知。
因为这种关键词识别机制的存在,作者应尽量避免在文中过度使用非常规词语,如活久见、腿玩年、城会玩等,给自己的文章增加理解障碍。行文用词规范,机器可能更懂你的文章。
除文章正文关键词识别外,机器还会对标题进行关键词的识别和分类比对。因此,在标题中露出具代表性的实体词,可帮助机器理解你的文章。例如,同样一篇足球类文章,标题「大胡子梅西,大胡子阿奎罗,大胡子伊瓜因,阿根廷美洲杯冠军稳了!」,就比标题「三人蓄须明志,誓要实现多年远大理想」含义更明确,更利于系统识别,获得更多的推荐量。
二、你的文章会被推荐给哪些用户?
每个人的阅读兴趣都是大不相同的,个性化推荐机制要做的事情就是——让每位用户看到可能感兴趣的内容,这也是用户每天会「沉迷」在今日头条上的原因。
因此反过来,作者创作的内容也就只会被推荐给可能对它感兴趣的用户。比如,某一篇关于C罗的足球文章写得极出色,阅读量超过了100万,放在朋友圈是可以刷屏的爆款文章,但对足球毫无兴趣的用户在今日头条上仍然是看不到这篇文章的。
这种精准推荐,是建立在机器对每位用户都有充分认知的前提下的。在机器中,每位用户实际是由大量数据构成的,用户的阅读兴趣就藏在这些数据中。
不同数据对用户兴趣计算所占权重不同,数据包括:
用户的基本信息
性别、年龄、所处地理位置(城市或地区);
使用机型、授权账户(如微博、微信等)、手机上经常使用的其他 App 等;
用户主动订阅或喜欢的内容
订阅帐号;
订阅频道;
关注的话题;
机器通过计算得出的用户阅读兴趣
用户阅读过的文章分类和关键词;
用户聚类:相似类型用户还喜欢阅读的其他文章类型;
用户在今日头条客户端主动标记「不感兴趣」的实体词或文章类型;