文档介绍:万方数据
基于粗糙集与模糊集的信息检索算法。刘文军岳,肖旗梅引言在网络和通信技术迅速发展的今天,网络规模越来越大,信息越来越多,信息的查找和获取也就变得越来越困难。人们越来越感受到了信息的冲击,而在日常生活工作中作为信息重要载体的文本,其信息量之大更新速度之快,使用户无法遍历所有感兴趣的内容,而且随着信息检索技术发展变化,用户对信息检索的要求在逐渐提高,需要使用多关键词进行查询,并且为了更快速准确地检索到自己真正感兴趣的个性信息常常会给查询关键词赋予不同的兴趣度,希望把相关性不是很强的信息屏蔽起来,从而使检索结果针对性更强,获得更满意的结果。目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接受的形式,因此,我们主要讨论文本信息检索的处理技术。文本信息检索与文本处理领域的其它分支有着十分密切的联系缥本过滤、文本分类、文本浏览和文本摘要等⒀杆俪晌R到绲娜鹊悖髦窒嘤Φ墓恃趸嵋椴欢险开,已成为计算语言学领域新的增长点。目前,大多数的信息检索系统是基于文档和查询之问相关语言比较的计算算法,具有代表性的有布尔模型、向量空间模型、概率模型等。这些模型从不同的角度出发,使用不同的方法处理特征加权、类别学习和相似度计算等问题,在使用上,它们各有自己的优缺点。布尔模型简单,但效果差;概率模型按预测概率的大小输出结果,但计算量比较大,而且需要给出一个初始预测概率值;向量空间模型能够进行部分匹配,检索结果按相关性大小排序,更符合用户的需要,向量空问模型是目潜普遍使用的文本表示和处理模型。.道路灾变防治及交通安全教育部工程研究中心ど忱砉ご笱,湖南长沙;ど忱砉ご笱в爰扑憧蒲аг海铣ど要:结合粗糙集与模糊集理论,提出一种信息检索的新方法。该方法首先对已知文本信息按关键词进行模糊聚类;然后利用粗糙集理论求出各关键词的重要性程度;最后根据最大相似度原则对文本信息进行检索,若结果集中文本数量较大,则按文本与已知文本的相似度从高到低进行排序,先返回相似度较高的相关文档。基拿项目苣鲜】萍继钅缓鲜〗逃钅;长沙理工大学道路灾变防治及交通安全教育部工程研第卷第年月模糊系统与数学文章编号:ど忱砉ご笱际楣荩铣ど摘关键词:粗糙集;模糊集;信息检索;相似度中图分类号:文献标识码:作者简介:刘文军,男,湖南邵东人,长沙理工大学数学与计算科学学院副教授;赵利萍,女,湖南邵东人,长沙理工大学图书馆员;肖旗梅,女,湖南双峰人,在读博士,长沙理工大学讲师,研究方向:粗糙集理论与数据挖掘。.琋崭迦掌冢—;修订日期:——究中心开放基金资助项目
万方数据
文档弛的程度,我们可以用公式一,一坐掣,其中文档信息检索算法预备是一些常用关键词的集合,“#瑀#瑀一,⋯,咒渲衦,,一厂癷,枪丶蔭,隶属于在信息检索的过程中通常需要处理不完备、不确定的大容量数据,为了帮助人们智能化地分析数据,自动地分析一些事例,出现了新一代的软计算工具,如粗糙集理论、模糊集理论等,本文结合粗糙集与模糊集理论,提出一种新的信息检索的方法,该方法首先把文档信息根据关键词转化成一个信息表的形式,然后再根据粗糙集与模糊集理论对已知信息表进行处理,最后根据加权综合求所检索信息与已知信息的相似度,并根据所给相似度阈值,对数据库中将所有与检索文本相似度大于阈值的文本按相似度的大小排序,依次输出。