1 / 11
文档名称:

腾讯LDA.docx

格式:docx   大小:207KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

腾讯LDA.docx

上传人:s1188831 2017/8/8 文件大小:207 KB

下载得到文件列表

腾讯LDA.docx

文档介绍

文档介绍:主题模型的“三个过程”
主题模型一般包含了三个重要的过程:生成过程、训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义,训练过程定义了怎样由训练数据学习得出模型,在线推断定义了怎样应用模型。下面分别进行简要介绍。
一般来说,主题模型是一种生成模型(生成模型可以直观的理解为给定模型,可以生成训练样本)。给定模型,其生成过程如图11:
模型有2个主题,主题1关于银行(主要的词为loan、bank、money等),主题2关于河流(主要的词为river、stream、bank等)。
文档1内容100%关于主题1,主题向量为<, >,文档中每一个词的生成过程如下:以100%的概率选择主题1,再从主题1中以一定的概率挑选词。
文档2内容50%关于主题1,50%关于主题2,主题向量为<, >,文档中每一个词的生成过程如下:以均等的概率选择主题1和2,再从选中的主题中以一定的概率挑选词。
文档3内容100%关于主题2,主题向量为<, >,文档中每一个词的生成过程如下:以100%的概率选择主题2,再从主题2中以一定的概率挑选词。
图11 主题模型的生成过程[9]
现实的情况是我们没有模型,只有海量的互联网文档数据,此时我们希望有机器学习算法可以自动的从训练文档数据中归纳出主题模型(如图12),即得到每个主题在词表上的具体分布。通常来说,训练过程还会得到一个副产品——每篇训练文档的主题向量。
图12 主题模型的训练过程[9]
有了主题模型,给定新的文档,通过在线推断,我们就可以得到文档的主题向量(如图13)。图5、6、7给出了一些具体的例子。
图13 主题模型的在线推断
三个过程中,训练过程是难点,后文将进行重点介绍。
LDA模型及其训练算法
LDA(Latent Dirichlet Allocation)[10]作为一种重要的主题模型,自发表以来就引起了学术界和产业界的极大关注,相关论文层出不穷。LDA的训练算法也多种多样,下面以吉布斯采样[11,12]为例,进行简要介绍。
图14 LDA训练过程
跳过复杂的数学推导,基于吉布斯采样的LDA训练过程如图14所示(每个词用w表示,每个词对应的主题用z表示,图中节点z的不同颜色表示不同的主题):
Step1: 初始时,随机的给训练语料中的每一个词w赋值一个主题z,并统计两个频率计数矩阵:Doc-Topic计数矩阵Ntd,描述每个文档中的主题频率分布;Word-Topic计数矩阵Nwt,表示每个主题下词的频率分布。如图15所示,两个矩阵分别对应于图中的边上的频率计数。
Step2: 遍历训练语料,按照概率重新采样其中每一个词w对应的主题z,同步更新Nwt和Ntd。
Step3: 重复 step2,直到Nwt收敛。
Step2中重新采样词w对应主题z时,采样公式为
P(z=t|w,∗)=N¬wt+βN¬t+βV⋅N¬td+αtLd–1+∑tαt∝N¬wt+βN¬t+βV(N¬td+αt)(1)
其中αt和β是超参数,分别表示对Ntd和Nwt中的频率计数进行概率平滑;V为词表大小,Ld表示文档d长度,Nwt表示训练语料中主题t中词w的出现次数,Nt表示训练语料中主题t的出现次数,Ntd表示文档d中主题t的出现次数,上角标
¬表示剔除当前采样词w的影响(比如N¬td表示减去当前采样词对应的主题后,文档d中主题t的出现次数)。
图15 文档d1中词w主题重新采样
事实上,以上对文档d中词w的主题z进行重新采样的公式有非常明确的物理意义,表示P(w|z)P(z|d),可以如图15直观的表示为一个“路径选择”的过程:
对当前文档d中的当前词w(图15中黑体表示),词w的“旧”主题z给出了d-z-w的一条路径(图15(1)虚线);
剔除词w对应的“旧”主题z,更新在Nwt和Ntd中的计数(图15(1)在旧路径对应的两条边上做“-1”操作);
计算d-z-w的每一条可能路径的概率,d-z-w路径的概率等于d-z和z-w两部分路径概率的乘积即P(z|d)P(w|z),P(z|d)和Ntd有关,P(w|z)和Nwt有关(图15(1));
依据概率对d-z-w路径进行采样,得到词w的“新”主题z(图15(2)虚线);
增加词w对应的“新”主题z,更新在Nwt和Ntd中的计数(图15(2)在新路径对应的两条边上做“+1”操作)。
图16 单机版LDA训练过程
在训练模型时,为了包含尽可能多的隐含语义(主题)同时保证效果,通常会使用海量的训练语料。这些互联网原始文档语料经过切词、停用词过滤、文档过滤(长度)等预处理步骤后(通常会分块进行存储),就可以作为LDA训练器的输入了。图14描述的LDA训练过

最近更新

2025年广安职业技术学院单招职业技能测试题库.. 74页

2025年广州体育职业技术学院单招职业适应性考.. 75页

1-七年级数学下册一元一次不等式与不等式组测.. 7页

2025年南京视觉艺术职业学院单招职业技能考试.. 72页

2025年广州科技贸易职业学院单招综合素质考试.. 73页

2025年南昌交通学院单招职业适应性测试题库含.. 75页

2025年广西信息职业技术学院单招职业倾向性测.. 76页

2025年广西城市职业大学单招综合素质考试题库.. 72页

2025年厦门兴才职业技术学院单招职业技能测试.. 73页

2025年厦门华厦学院单招职业适应性考试题库附.. 74页

UbD理论下高中信息技术单元整体教学活动设计与.. 10页

大堰石灰石资源 15页

2025年广西省崇左市单招职业倾向性测试题库参.. 74页

2025年广西省柳州市单招职业倾向性考试题库汇.. 73页

2025年广西省贺州市单招职业适应性考试题库推.. 74页

2025年广西科技职业学院单招职业倾向性测试题.. 72页

学校开展新八德培训心得体会与学校政教处工作.. 9页

2025年吉林省白城市单招职业适应性考试题库完.. 75页

2025年吉林省辽源市单招职业倾向性测试题库新.. 73页

2025年庆阳职业技术学院单招职业适应性测试题.. 73页

高空升降平台车施工方案 7页

《义务教育道德与法治课程标准(2022年版)》 5页

科室护理人员能级管理规定 4页

供应室护理组长竞聘ppT 21页

2022-2023甘肃省建筑与装饰工程预算定额计算规.. 14页

跨文化交际中英汉礼貌用语的对比研究 8页

品质奖惩管理制度 18页

电话交换机TC-432B说明书 18页

征信报告模板 13页

金属目标表面的反射激光偏振特性 5页