1 / 11
文档名称:

腾讯LDA.docx

格式:docx   大小:207KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

腾讯LDA.docx

上传人:s1188831 2017/8/8 文件大小:207 KB

下载得到文件列表

腾讯LDA.docx

文档介绍

文档介绍:主题模型的“三个过程”
主题模型一般包含了三个重要的过程:生成过程、训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义,训练过程定义了怎样由训练数据学习得出模型,在线推断定义了怎样应用模型。下面分别进行简要介绍。
一般来说,主题模型是一种生成模型(生成模型可以直观的理解为给定模型,可以生成训练样本)。给定模型,其生成过程如图11:
模型有2个主题,主题1关于银行(主要的词为loan、bank、money等),主题2关于河流(主要的词为river、stream、bank等)。
文档1内容100%关于主题1,主题向量为<, >,文档中每一个词的生成过程如下:以100%的概率选择主题1,再从主题1中以一定的概率挑选词。
文档2内容50%关于主题1,50%关于主题2,主题向量为<, >,文档中每一个词的生成过程如下:以均等的概率选择主题1和2,再从选中的主题中以一定的概率挑选词。
文档3内容100%关于主题2,主题向量为<, >,文档中每一个词的生成过程如下:以100%的概率选择主题2,再从主题2中以一定的概率挑选词。
图11 主题模型的生成过程[9]
现实的情况是我们没有模型,只有海量的互联网文档数据,此时我们希望有机器学习算法可以自动的从训练文档数据中归纳出主题模型(如图12),即得到每个主题在词表上的具体分布。通常来说,训练过程还会得到一个副产品——每篇训练文档的主题向量。
图12 主题模型的训练过程[9]
有了主题模型,给定新的文档,通过在线推断,我们就可以得到文档的主题向量(如图13)。图5、6、7给出了一些具体的例子。
图13 主题模型的在线推断
三个过程中,训练过程是难点,后文将进行重点介绍。
LDA模型及其训练算法
LDA(Latent Dirichlet Allocation)[10]作为一种重要的主题模型,自发表以来就引起了学术界和产业界的极大关注,相关论文层出不穷。LDA的训练算法也多种多样,下面以吉布斯采样[11,12]为例,进行简要介绍。
图14 LDA训练过程
跳过复杂的数学推导,基于吉布斯采样的LDA训练过程如图14所示(每个词用w表示,每个词对应的主题用z表示,图中节点z的不同颜色表示不同的主题):
Step1: 初始时,随机的给训练语料中的每一个词w赋值一个主题z,并统计两个频率计数矩阵:Doc-Topic计数矩阵Ntd,描述每个文档中的主题频率分布;Word-Topic计数矩阵Nwt,表示每个主题下词的频率分布。如图15所示,两个矩阵分别对应于图中的边上的频率计数。
Step2: 遍历训练语料,按照概率重新采样其中每一个词w对应的主题z,同步更新Nwt和Ntd。
Step3: 重复 step2,直到Nwt收敛。
Step2中重新采样词w对应主题z时,采样公式为
P(z=t|w,∗)=N¬wt+βN¬t+βV⋅N¬td+αtLd–1+∑tαt∝N¬wt+βN¬t+βV(N¬td+αt)(1)
其中αt和β是超参数,分别表示对Ntd和Nwt中的频率计数进行概率平滑;V为词表大小,Ld表示文档d长度,Nwt表示训练语料中主题t中词w的出现次数,Nt表示训练语料中主题t的出现次数,Ntd表示文档d中主题t的出现次数,上角标
¬表示剔除当前采样词w的影响(比如N¬td表示减去当前采样词对应的主题后,文档d中主题t的出现次数)。
图15 文档d1中词w主题重新采样
事实上,以上对文档d中词w的主题z进行重新采样的公式有非常明确的物理意义,表示P(w|z)P(z|d),可以如图15直观的表示为一个“路径选择”的过程:
对当前文档d中的当前词w(图15中黑体表示),词w的“旧”主题z给出了d-z-w的一条路径(图15(1)虚线);
剔除词w对应的“旧”主题z,更新在Nwt和Ntd中的计数(图15(1)在旧路径对应的两条边上做“-1”操作);
计算d-z-w的每一条可能路径的概率,d-z-w路径的概率等于d-z和z-w两部分路径概率的乘积即P(z|d)P(w|z),P(z|d)和Ntd有关,P(w|z)和Nwt有关(图15(1));
依据概率对d-z-w路径进行采样,得到词w的“新”主题z(图15(2)虚线);
增加词w对应的“新”主题z,更新在Nwt和Ntd中的计数(图15(2)在新路径对应的两条边上做“+1”操作)。
图16 单机版LDA训练过程
在训练模型时,为了包含尽可能多的隐含语义(主题)同时保证效果,通常会使用海量的训练语料。这些互联网原始文档语料经过切词、停用词过滤、文档过滤(长度)等预处理步骤后(通常会分块进行存储),就可以作为LDA训练器的输入了。图14描述的LDA训练过

最近更新

2025年商店门面租赁合同租赁合同 7页

2025年单位旷工检讨书写 6页

2025年办公室表态发言范文 2页

2025年初中国旗下讲话成长的快乐参考发言稿 2页

年级上册部编版一年级语文上册第三单元《ieü.. 6页

2025年六年级语文下册期中测试卷含参考答案 4页

2025年八年级流水年华参考发言稿 3页

2025年110KV降压变电站一次部分设计设计说明书.. 22页

山西大学自然科学学术论文分级认定标准 6页

2025年保护地球环境宣传语大全关于保护地球环.. 4页

小班幼儿生活习惯受家庭教育影响存在的问题及.. 12页

2025年企业财务运营与管理成本控制 6页

2025年什么是环境标准环境标准的作用 2页

2025年人教版四年级语文上册第一次月考试题及.. 5页

安徽省颍泉区2024年《质量员之设备安装质量基.. 29页

2025年人教版一年级数学下册期末测试卷1套 6页

2025年交通事故现场协议书 3页

2025年五年级书香家庭家长会家长代表参考演讲.. 3页

太原理工大学论文格式 5页

大学辅导员职业生涯规划指导 7页

大专会计财务专业毕业论文(5材料) 4页

河道巡查心得体会简短 2页

消费者权益保护宣传工作总结 2页

基金预算管理标题 5页

精选山东建筑大学本科毕业论文-2025-土木工程.. 7页

骨科病人护理观察要点 26页

中小学德育与心理健康教育 14页

主奴合约只是分享 3页

出口肉类屠宰加工企业注册卫生规范 17页

管理信息系统实践报告 24页