1 / 80
文档名称:

基于贝叶斯理论的社会化标注主题聚类模型研究.pdf

格式:pdf   页数:80
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于贝叶斯理论的社会化标注主题聚类模型研究.pdf

上传人:minzo 2014/2/21 文件大小:0 KB

下载得到文件列表

基于贝叶斯理论的社会化标注主题聚类模型研究.pdf

文档介绍

文档介绍:江苏科技大学
硕士学位论文
基于贝叶斯理论的社会化标注主题聚类模型研究
姓名:王嵩
申请学位级别:硕士
专业:管理科学与工程
指导教师:代逸生
2010-03-21
摘要
随着 技术不断发展和完善,社会化标注系统随之而产生。社会化标注秉承
了 所提出的用户自由性和主动性的特征。在社会化标注环境下,用户可以根据
自己对相关信息资源的理解添加合适的标签,同时用户可以参考其他人使用过的标签
进行标注。这种标注机制的实现,使得信息用户可以根据自己对资源的需求来对其进
行选择,并根据自己对资源认识来对其进行组织,体现社会化标注系统的主动性和个
性化的特点。
由于社会化标注本身是一种自下而上的标注,这就使得这种“合适”的标签并没
有统一规则予以约束,明明用少数几个词组就可以明确的描述出资源,但由于用户的
知识背景以及理解程度的差异,往往对信息资源进行标注时生成的标签出现歧义、同
义、同形多义等现象。同时,以往很少被标注过的网络资源往往被当前浏览信息的用
户所忽略,这样会导致大量具有重大价值的网络资源被忽略掉,这些现象都会给新进
入的用户搜索和获取信息资源带来了极大的困扰。
针对以上这些问题,本文利用贝叶斯理论并结合相关主题聚类算法对社会化标注
环境中的信息资源主题进行有效地挖掘,将大量用户对特定资源进行标注所产生的标
签集进行一定的清除和归类,最终在特定资源下得出只含有少数具有代表性的标签集
合。本文的主要贡献有如下几个方面:
(1) 根据社会化标注所存在的一词多义、同义词等现象将文本挖掘理论中的隐含语
义挖掘理论应用到社会化标注上来,通过构建资源-标签矩阵来挖掘两者间的语义空
间,有效解决了用户标注过程中的词义混乱现象;
(2) 利用三层贝叶斯网络,构建基于隐狄利克雷的主题分配,并在此基础上挖掘潜
在的主题并对其进行有效地分类汇总;
(3) 结合贝叶斯理论的先验知识及样本空间,并提出主题空间分类,对资源的属性
识别进行进一步细化,使前两方面的工作得到进一步改善。
以上研究不但丰富了信息组织和检索的相关理论,而且为信息主题及用户偏好的
识别提供了有效的途径。

关键词社会化标注;主题聚类;隐含语义;层级贝叶斯

I
Abstract
Abstract
With the development and improvement of Web technology, social tagging emerged. Social
tagging proposed by adhering to the characteristics of freedom and initiative about users’ behaviors.
Marked in the social environment, users set their own understanding of the relevant information
resources to add the right tags, and users can refer other people to mark the label used. Mechanism to
achieve this mark, making information users according to their demand for resources to select them, and
according to their knowledge of resources to them, to embody the initiative of social tagging systems and
personal characteristics.
However, due to social tagging itself is a bottom-up label, which prompted this "right" tag, and there
is no uniform rules to be binding, you can use a few phrases to describe the specific resources
obviously, but because of the user's knowledge and understanding of differences in background, often
marked on the information resources ge