1 / 7
文档名称:

基于Bayes潜在语义模型的半监督Web挖掘.pdf

格式:pdf   大小:319KB   页数:7页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Bayes潜在语义模型的半监督Web挖掘.pdf

上传人:changjinlai 2018/1/19 文件大小:319 KB

下载得到文件列表

基于Bayes潜在语义模型的半监督Web挖掘.pdf

相关文档

文档介绍

文档介绍:维普资讯
—//—软件学报.,.
基于潜在语义模型的半监督挖掘
宫秀军,史忠植
中国科学院计算技术研究所智能信息处理开放实验室,北京
—:,、..
://、、、、
摘要:随着互联网信息的增长,
别标注的训练样本来预测网页的类别,,
将相关网页归并到一类、
,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第阶
段用简单贝叶斯模型,在第阶段类别标注的基础上,通过算法对不含有潜在类
别主题词变量的文档作类别标注、实验结果表明,该算法具有很高的精度和召回率、
关键词:叶斯潜在语义分析;半监督学****简单贝叶斯分类;期望最大化算法;挖掘
中图法分类号: 文献标识码:
随着互联网的普及,,以便从茫茫的数据世界中检索到期
望的目标,并有效地分析这些信息,以便挖掘出新颖的、潜在的有用模式,
上信息的分类目录组织是提高检索效率和检索精度的有效途径,如在利用搜索引擎对网页数据进行检索时,若
能提供查询的类别信息,必然会缩小与限制检索范围,从而提高查准率、同时,分类可以提供信息的良好组织结
构,便于用户进行浏览和过滤信息艮多大型网站都采用这种组织方式,如【采用人工方式来维护网页的
目录结构; 网站采用一定的排序机制,使与用户最相关的网页排在前面,便于用户浏览、【等人
利用线性代数的知识,通过矩阵的奇异值分解,简称来进行信息滤波和潜在
语义索引,,投影到低维的潜在语
义空间中,这一方面缩小了问题的规模,
建模、视频检索及蛋白质数据库等实际应用中取得了较好的效果.
聚类分析是文本挖掘的主要手段之一【.它的主要作用是:通过对检索结果的聚类,将检索到的大量网
页以一定的类别提供给用户,使用户能够快速定位期望的目标; 自动生成分类目录;通过相似网页的归
并,便于分析这些网页的共性..均值聚类是比较典型的聚类算法,另外,自组织映射神经网络聚类和基于

无监督学****它对解空间的搜索带有一定的盲目性,,在高维
情况下,,它通过对一系列训练样本的分析
【,如,
的是,获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较
,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困
收稿日期:——;修改日期:..
基金项目:国家自然科学基金资助项目,
作者简介:富秀军一,男,内蒙古赤峰人,博士,主要研究领域为数据挖掘,数据仓库技术;史忠植一,男,江苏无锡人
研究