文档名称：

基于PLSA学习概率分布语义信息的多标签分类算法.pdf

格式：pdf 大小：3,018KB 页数：15页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于PLSA学习概率分布语义信息的多标签分类算法.pdf

上传人:学习一点新东西 2021/8/14 文件大小：2.95 MB

下载得到文件列表

基于PLSA学习概率分布语义信息的多标签分类算法.pdf

相关文档

文档介绍

文档介绍：万方数据
基于学****概率分布语义信息的多标签分类算法南京大学学报匀豢蒲王一宾，郑伟杰逃袷，曹天成第卷第珻年／琧甹摘要：多标签算法大多利用特征与标签嵌入等方法挖掘标签空间的语义信息，但这类方法没有利用特征与标签间可能存在的某种联系．类属属性的提出较好地诠释了特征与标签的联系，即标签可能对应一组自身的特征，然而这类方法未能给出特征与标签间可能存在的逻辑关系，也未证实标签与实例问可能存在同样的逻辑关系．因此，提出基于案怕史植加镆逍畔⒌男滦投啾昵┓掷嗨惴ǎ紫热衔Q揪卣蟠嬖谝恢忠含变量作为标签，利用模型获取特征一标签与标签一实例条件概率分布矩阵，以条件概率分布的形式解释它们之间可能存在的联系；其次，建立模型学****概率分布矩阵中存在的语义信息，并应用于多标签算法的标签预测与分类；最后在个公开的多标签文本类型的数据集上进行实验与统计假设检验，并与其他多标签分类算法对比．实验结果表明，提出的学****概率分布语义信息用于提高多标签算法的性能存在一定的合理性．文献标识码：甆．安庆师范大学计算机与信息学院，安庆，；不帐「咝Ｖ悄芨兄S爰扑阒氐闶笛槭遥睬焓Ψ洞笱В睬欤关键词：多标签学****概率分布，语义分析，标签相关性中图分类号：一，，，，，基金项目：国家自然科学基金．珹，，，甌，瓾．．猯猻，，瓾，琣．．瑃．瑆甌猯猧甋瑃瓼，收稿日期：一—ㄑ读O等耍珽—：．，：
万方数据
大数据时代，文本数据分类是当前的研究热点，因文本数据中含有多个主题，所以语义信息心耐诰蚴侵饕Q芯康奈侍猓啾昵┪谋臼具有丰富的语义空间，语义空间的挖掘大多数应用在标签空间．在多标签算法中，特征与标签之问的联系与应用是近几年研究的热点，研究者们通过将标签对应几组特征、特征间与标签间的相关性信息等方法挖掘标签空间中语义信息，进而提升算法的性能．大多数多标签数据具有维数较高的特征与标签空间，如何获取空问中的内在信息是面俚闹要问题．针对这一问题，∽岢鼋卣与标签空间缩小到低维空间，从低维的特征空间获取潜在标签空间中的信息．标签嵌入获取标签空间中的内在信息主要方法，岢鼋卣饔氡昵┓肿槎杂ν队暗降臀间，标签向量嵌入到低维空间可保证各个组的稀疏性不变．特征间与标签间的相关性信息是特征与标签空间中的主要信息，许多研究者提出较好的学****方法．【利用均值漂移聚类方法获得特征空间中的隐藏信息，并利用信息熵度量标签的相关性，采用一种非平衡化标签补全的方法重塑标签空间．但上述研究中，研究者们未能将特征与标签可能存在的先验分布信息用于提升算法的性能．岢隼嗍羰粜缘多标签算法—，彩霾煌昵┛赡艽嬖谧身的一些特征．关于类属属性的多标签算法研究，利用标签间相关性信息度量标签的类属属性是常用方法．旧岢黾偕杼卣饔氡昵┫喙亓#嗨频标签可以共享特征，标签问相关性用余弦相似度度量，但未考虑特征间的相关性信息．对于这一问题，刚应用概率邻域计算图模型与余弦相似度分别计算特征与标签的相关性，进而度量标签的类属属性．在标签对应一组特征中，每个特征所占的比例可能不同．针对这一问题，算法提出对于每个特征分配权重，并同时构造其他特征用于学****标签间的相关性．上述方法是基于每个标签与小部分的特征相关联，这种稀疏性的假设在某些应用中并不能成立．因此，提出将数字标签转化为逻辑标签以丰富标签空间的语义信息，进而提升类属属性的多标签算法性能．上述对于类属属性的多标签算法改进中，仅在度量相关性方法与改造特征与标签空间上解决问题，未能学****特征与标签间可能存在的联系中潜在的语义信息．标签与实例是否同样可能存在一种联系，是值得思考与研究的问题．在分析潜在语义信息的方法中，我们发现概率潜在语义分析，Ч文Ｐ涂梢允视糜诙啾昵┧惴ǎ模型中文本与单词分别对应多标签算法中的实例与特征，最主要的是隐含变量主题对应标签．我们认为多标签数据中的标签隐藏在样本矩阵中，即样本矩阵中几个特征可能组成某个标签类似于模型中几个单词可能组成某个主题．图故玖吮疚牡闹饕K枷耄缭诠赜诼行的文章中，像风景、美食与居民等这种词汇出现频率较高．对于旅行这个标签，可以看作是风景、美食与居民等这些特征的一种概率分布．在多标签文本数据集中，关于旅行的文章可能有日记的标签，而日记这个标签可以看作是时间与感想等特征的一种概率分布．总之，每个标签都代表一个不同的特征的概率分布，而每个实例又可以看作标签上的概率分布．多标签模型中的多个标签可以为模型提供更多隐含变量，进而挖掘到丰富的语义信息．模型可以为多标签模型中的特征与标签提供一种概率模型，并且每个—南京大学学报匀豢蒲第卷猄—猻··猯．甌．簃—，瑂，
万方数据
奎莹小／，∑／琹奎莹小疛黳绦以罚。，删，·，硎緖：霰昵A思魄ィ篜假设所有的／琹与弘郁足已知的，瑋危足酛的，取笔莑『!篍—，。一奎疛必驣，疘 ¨蓥户寓椋疘藁。／琁亿籌入奎小山，必㈦危‘∑∑，篲А蹋瓮∑∑小／，∑