文档介绍：’种新的信息过滤方法粗糙集在信息过滤中的应tL}j 文本挖掘概述在现实世界中,可获取的大部分信息是存储在文本数据库(或文档数据库)中的,由来自各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件消息和Web页面)的大量文档组成。由于电子形式的信息量的飞速增长,如电子出版物,电子邮件,CD—ROM和万维网(它也可以被视为一个巨大的、互连的动态文本数据库)等,文本数据库得到迅速的发展。文档数据库中存储最多的数据是所谓的半结构化数据(semi—structuredata),它既不是完全无结构的也不是完全结构的。例如,一个文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,还可能包含大量的非结构化的文本成分,如摘要和内容。在最近数据库领域研究中已有大量的有关半结构化数据的建模和实现方面的研究n0,11,12,13,14,15,16,17】。而且,信息检索技术,如文本标引(textindex)方法,已经被用来处理非结构化文档。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要。典型的大量文档中只有很少一部分与某一个体或用户相关。而不清楚文档中的内容,就很难形成有效的查询,从数据中分析和提取有用信息用户需要有关的工具完成不同文档的比较,以及文档重要性和相关性排列,或找出多文档的模式或趋势。因此文本挖掘就成为数据挖掘中一个目益流行而重要的研究课题。 (InformationRetrieving,即IR)是与数据库系统并行发展了很多年的一个领域。与数据库系统不同,信息检索研究的主要不是结构数据的查询和事务处理的问题,而是研究大量文本文档的信息组织的检索。典型的信息检索问题是基于用户的输入(如关键字或样例文档)定位相关文档。典型的信息检索系统有联机图书馆目录系统和联机文档管理系统。判断文本检索质量的基本度量有两个:查准率和查全率。词语×文档矩阵是反映词和文档关系的一种方法。每一行表示一个词,每一列表示一个文档向量,基中每一项表示某个词在某个文档中出现的次数。。2基于关键字的关联和文档分类基于关键字的关联分析首先收集经常一起出现的关键字或词汇,然后找出其关联或相互关系。与文本数据库中大多数分析~样,关联分析首先要对文本数据进行分类、词根处理、去除非常用词等预处理,然后调用关联挖掘算法。在文档数据库中,每一文档被视为一个事务,文档中的关键字组可视种新的信息过滤方法一粗糙集在信息过滤中的应川李治国为事务中的一组事务项。文档数据库中关键字关联挖掘的问题就变成事务数据库中事务项的关联挖掘。自动文档分类是一种重要的文本挖掘工作,由于现在存在大量的联机文档,自动对其分类组织以便于对文档的检索和分析,是至关重要的。自动地对文档进行分类的一般做法是:首先,把一组预先分类的文档作为训练集。然后对训练集进行分析以便得出分类模式。这种分类模式通常需要~定的测试过程,不断地细化。之后就用这些导出的分类模式对其他联机文档加以分类。(InformationFiltering,即IF)技术,结合现有的信息检索方法,对于解决网络信息的个性化、动态化以及提高被查询信息对用户的可用度有很大的帮助。与IR不同,IF关注用户对特定兴趣主题长期稳定的信息需求,并将这种需求用兴趣主题模型(TopicProfile)来表示,其作用相当于IR中的查询索引项(QueryTerms)。IF是系统根据用户的兴趣主题模型对新来的文献进行相关度计算,主动将相关度较高的新文献提供给符合该兴趣主题模型的注册用户,同时同户可以将最相关文献反馈给IF服务器以更新调整现有的兴趣主题模型。信息过滤技术集信息检索方法和机器学****方法于一体。信息过滤的常用方法多数信息过滤的算法都是基于词语×文档矩阵的,即首先建立词语×文档矩阵。因为词语×文档矩阵中只是一些词语在文档中的绝对词频,绝对词频在进行分析时意义不大,所以很有必要对词语×文档矩阵进行处理。对词语×文档矩阵的处理,主要修改字项的权值。计算字项的权值,最通用的方法是用字项频度因子(theTermFrequency,或简称TF)与反向文档频度因子(theInverseDocumentFrequency或简称为IDF)之积。字项频度因子与字项在文档中出现的频度成正比。反向文档频度因子是用来表示字项在文档中的重要程度。有些字项在文档中出现的频度很低,但是它们的IDF却可能很大:而有的字项在文档中出现的频度很高,而IDF却很小(如系统等)。这一步需要具有专业人士参与才能达到更好的效果。在对词语×文档矩阵的处理方法上面主要有两种,一种是把绝对词频转化为相对词频,相对词频为归一化的词频,其计算方