文档介绍：搜索引擎的文本聚类研究
[摘要] 近年来,随着信息技术的发展,越来越多的学者开始关注搜索引擎聚类。国内研究相比国外较晚,还处于发展的初级阶段,存在着数据库依附性过强、搜索速度缓慢、用户的个性化服务需要提升等问题。有关网站可建立自己独立的数据库或与专业搜索引擎公司合作,建立专有数据库或将Tag标签应用到网页中,以加快搜索引擎聚类的速度并满足不同用户的需要,以促进搜索引擎聚类在搜索引擎中可持续健康快速发展。
[关键词] 搜索引擎;文本聚类;发展局限;展望
[中图分类号] [文献标识码] B
一、前言
NIC第32次互联网报告显示,截止2013年6月止,,半年共计新增网民2656万人。%,。从2009年到2013年,互联网普及率逐年上升,%%。计算机的普及,使人们越来越依赖于询问互联网。面对浩瀚的信息海洋,如何获得用户真正有用的信息,成为了一个炙手可热的话题。从最早的门户网站方式到现在的谷歌、百度全文本搜索,对待信息的获取方式已经有了很大的改变。然而,随着互联网越来越普及,网络中存储的信息,出现很多冗杂信息,仅仅依靠传统的搜索方式,并不能满足用户的需要。从2000年开始,以Vivisimo为代表,越来越多的学者开始注意到,聚类能更准确的定位搜索结果。
二、聚类
聚类是指将抽象或物理对象组成集合,将集合中类似对象组成多个类的过程。由聚类所生成的簇可以看做是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,而与其他簇中的对象不同。聚类分析又被叫做群分析,是针对分类问题的一种统计分析方法。由一个度量的向量或多维空间中的一个点构成模式,再由多个模式构成聚类分析。聚类分析可以追溯于分类学,不过聚类并不是单纯的分类。聚类与分类最大的的不同之处是,划分为聚类的类是未知的。
聚类作为一种有效的分类方法,可以从庞大的消费者数据库区分属性、目标不同的消费群体,再概括出这些消费群体的消费模式也就是普通意义上的****惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,在数据挖掘算法时,聚类算法可以作为对数据进行预处理,再用其他分析算法处理。聚类分析的算法可以分为层次法(Hierarchical Methods)、基于网格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、划分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。
三、搜索引擎聚类国内外发展进程
国外对于搜索引擎聚类方面的研究最早发生在1996年,HearstMA,PedersenJO学者研究开发的Scatter/Gather系统是世界上第一个将聚类引入搜索引擎的系统。2000年开发的Vivisimo元搜索引擎系统,采用自主开发的启发式算法来集合并聚类原文文献。这种算法吸收了传统人工智能思想,对检索结果进行更好描述和聚类。它的文献聚类技术首先将文本内容自动分类,划分为等级式排列的目录之后进行聚类。作为一种完全自动化的聚类技术,不需要