1 / 5
文档名称:

基于Chameleon 算法的文本聚类技术研究.pdf

格式:pdf   页数:5
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Chameleon 算法的文本聚类技术研究.pdf

上传人:你是我的全部 2013/8/7 文件大小:0 KB

下载得到文件列表

基于Chameleon 算法的文本聚类技术研究.pdf

文档介绍

文档介绍:第期计算机技术与发展.
年月. .
基于算法的文本聚类技术研究
黄文江,李翔,林祥
上海交通大学信息安全工程学院,上海
摘要:文本聚类是聚类的一个重要的研究方向,是聚类在文本处理领域的重要应用。但是,传统的聚类算法在文本聚类
应用中的表现并不能让人满意。文中将一种新的聚类算法——.算法引人中文文本聚类领域中。在构建中文文
本聚类模型的基础上结合了分词、文本向量化等技术进行了相关实验。实验的结果表明算法可以应用在中文
文本聚类领域中,同时也解决了传统算法在聚类形状发现方面的不足。相关实验说明了这种算法在中文文本聚类领域应
用中的有效性和实用性。
关键词:文本聚类;;文本向量
中图分类号:. 文献标识码: 文章编号:———

·,,
,,,
:, ,
.. . ,
,. ·
.
.,
.
: ; ;
引言类,使用户迅速定位到所需要的信息;对用户感兴趣的
随着互联网的迅速发展,网络上各种形式的电子文档如用户浏览器中的网页聚类,从而发现
资源越来越多,如何在海量信息中尤其是文本信息中用户的兴趣模式并用于信息过滤和信息主动推荐等服
发现自己需要的知识变得越来越困难,于是文本聚类务。
技术应运而生。文本聚类技术是面向海量信息实现知文本聚类的实质就是聚类算法在实际的文本处理
识发现、热点发现的基本方法,已经成为互联网媒体信领域的一种应用。文本聚类主要是依据著名的聚类假
息监管领域网络舆情趋势研判不可或缺的技术手段。设:同类的文档相似度较大,而不同类的文档相似度较
小。作为一种无监督的机器学习方法,文本聚类不需
研究现状要训练过程,也不需要预先对文档进行人工标注类别,
因此具有较高的自动化处理能力,已经成为对文本信
文本聚类技术在文本信息处理领域应用十分广
息进行有效地组织、摘要和导航的重要手段。
泛,其可以作为多文档自动文摘等自然语言处理应用
传统的聚类方法主要包含基于划分、基于层次、基
的预处理步骤;还可以对搜索引擎返回的结果进行聚
于密度、基于网格和基于模型等五种方法。传统的聚
类方法在文本聚类应用中有各自的特点,例如:以—
收稿日期:~一;修回日期:一一
】为代表的基于划分聚类算法,其优点是迭代
基金项目:国家自然科学难金项目;教育部新世纪优秀
速度快,适合处理大量数据集,不过该方法是需要事先
人才支持计划项目一;上海『科学技术委员会科技
攻关项耳;年上海市曙光计划确定空问初始划分数量。以算法为代表算法
作者简介:黄文江一,男,辽宁沈阳人,硕::研究生,研究方向的基于层次的聚类算法可以有效地适应非球形的几何
为互联网内容安全;李翱,副教授,研究方向为网络内容安全。形状,并且簇的收缩或凝聚有助于控制噪声的影响,方
· · 计算机技术与发展第卷
法实现效率高。但是基于层次的聚类方法需要事先确尺, 一: 一
定难以表达的系列参数,例如样本大小、聚类数目、收兰±墨

缩因子等。以姚算法为代表算法的基于密度
, 表示连接簇和的所有边的权重和。
的聚类算法能在带有噪声的数据集中发现任意形状的
表示把簇划分为两个大致相等部分的最小
类;缺点是需要事