1 / 9
文档名称:

2021年基于文本信息的聚类方法研究文本聚类.docx

格式:docx   大小:20KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2021年基于文本信息的聚类方法研究文本聚类.docx

上传人:读书之乐 2021/3/25 文件大小:20 KB

下载得到文件列表

2021年基于文本信息的聚类方法研究文本聚类.docx

相关文档

文档介绍

文档介绍:基于文本信息的聚类方法研究文本聚类

     摘 要:伴随信息技术和Web技术的发展,怎样从海量的Web文本信息中找到自己所需信息已成为一个主要的研究领域。在众多信息获取方法中,聚类技术是一个被广泛应用的方法。总结了文本聚类算法的研究现实状况,比较了算法的关键差异和整体思想,并分析了多种方法的优劣,同时指出了文本聚类研究以后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提升聚类性能。
  关键词关键词:文本聚类;数据挖掘;粒子群算法;信息检索;自然语言处理
  中图分类号:TP301 文件标识码:A 文章编号文章编号:167278002021008004003
  作者介绍作者介绍:安靖1980-,女,中国人寿保险股份有限企业研发中心职员,研究方向为智能信息处理、软件设计。
  0 引言
  伴随互联网的大规模普及和应用,海量文本信息不停涌现,互联网已成为一个庞大而杂乱无章的信息库。所以,大家迫切需要能够实现自动聚类和分类处理的技术,从而在节约时间的同时,能够更加好地检索到自己所需类其余文件。高效的文本检索需要优质的索引和文本概要,文本聚类技术即是处理此问题的一条有效路径。文本聚类过程是指将一个训练文本集合分成若干聚类簇Cluster,每个聚类簇中的文本之间含有较大的共性,而不一样聚类簇的文本含有很小的相同性。和之对应的是,文本分类通常是经过数理统计方法或知识工程来实现的。
  文本聚类技术在数据挖掘领域研究中有着主要的地位,通常来说,它和文本分类的功效是相辅相成的。聚类技术关键是依据聚类假设原理:同类的对象相同度大,不一样类的对象相同度小。文本聚类技术是自然语言处理Natural Language Processing, NLP和信息检索Information Retrieval, IR等研究领域包括的热门课题,它是一个无监督的机器学****技术,因为聚类不需要提前训练,也不需要事先对文本材料进行人工分类。所以,它含有较高的自动化处理能力和灵活性,从而成为文本信息组织、概要提取和导航的主要手段,被越来越多的研究者所青睐。
  目前,最常见的文本聚类和分析方法包含层次聚类方法、基于模型的聚类方法如统计学算法和神经网络算法,和依靠平面划分的聚类方法如K中心点聚类算法等,它们已经被广泛地利用于知识管理系统、商业智能系统和CRM系统中。而且,能够能利用这些算法来部分处理智能检索系统存在的所谓“信息过载”的难题,从而过滤掉用户文本信息检索结果中的大量“噪声”,提升检索信息的相关度和正确度。
  现在,因为大规模、多复杂数据集的出现,大数据的分析和处理对聚类技术提出了更高的要求,关键表现在聚类算法需要含有一定的可伸缩性、能够处理多种类型数据、能够发觉任意形状的聚类簇和能够高速分析高维数据等,并要求用户能够对聚类的结果进行判定、充足了解和使用,传统聚类手段显然已经难以应对这一系列的问题和需求。为处理上述难题,各个领域的研究者们开始尝试研究多种新型的智能聚类技术。其中,属于群智能算法的粒子群优化算法PSO逐步引发了业界的注意,而且一系列试验表明,此方法在聚类分析效果上显著优于传统方法。
  1 基于层次分析的聚类方法
  所谓层次分析就是对给定的数据集合进行层次上的分离,即分界。在层次法聚类过程中,用树结构表示