文档介绍:基于粗糙集理论的文本分类算法研究及应用摘要类比较。自动组织和管理知识的技术一文本分类,作为实现这一目标的关键技术文本分类是当前信息技术中的~个重要研究领域,本文提出了一种基于粗枋隽宋谋痉掷嗟幕竟蹋⒍约钢殖<谋痉掷嗨惴ń辛朔治觯岢隽嘶诖植诩奈谋痉掷嗄P停⒔ǜ媚P陀τ糜贐信息安全监最后,对本论文所研究的内容进行了总结,并对本文将来的研究方向提出随着互联网技术的飞速发展,网上的资源呈指数增长,人工处理这些海量信息代价非常高昂,因此如何高效地组织和管理这些资源成为近些年来的研究热点。目前传统的信息检索技术己不适应日益增加的大量文本数据的处理需要,用户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分之一,得到了研究人员的广泛关注。糙集理论的文本自动分类方法,在对嫌泻π畔⒌墓朔矫婢哂薪细叩氖涤价值。该方法主要利用粗糙集理论对模糊和不确定性知识的处理能力,它不需要任何先验信息,就可有效分析和处理不完备、不~致、不精确的数据。目前,粗糙集理论已经在机器学习、知识获取、决策分析、知识发现、专家系统和模式识别等领域取得了一些成功的应用。本文主要研究文本分类中决策表的属性约简问题和属性值的约简问题,所做主要工作包括:介绍了粗糙集的基本理论;紫日攵约钢殖S檬粜栽技蛩惴ㄖ写嬖诘奈侍饨辛朔治觯缓蟾隽基于粗集的搜索的属性约简算法。该算法既具有较高的算法效率,又能以较大的概率得到最小属性约简。针对粗糙集理论中的值约简及最小决策规则进行了相应研究:控系统中,将从纤阉鞯降奈谋拘畔⑼ü掷嗄P凸顺鲇没е付谌荩效地提高了有害信息发现能力,净化网络环境,减轻有关工作人员的工作压力,在今后实际应用研究中有较大的参考价值。山东师范大学硕上学位论文
关键词:粗糙集;离散化;约简;决策表了展望。山东师范大学硕士学位论文
瓵籧,,.甒,.琺瑃猟.,..瓺甋甌廿
琧甃.,:—..籇籥籨
学位论文作者签名:或撰写过的研究成果,也不包含为获得——ⅲ喝缑挥衅渌枰L乇鹕学位论文作者躲埘珍午球奄坼;导师粹签字日期:犟模谌独创声明学位论文版权使用授权书出丕垣堇去堂有关保留、使用学位论文的规定,有权授权出丕垣整太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表明的,本栏可空蚱渌逃沟难换蛑な槭褂霉牟牧稀S胛乙煌ぷ鞯耐径本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。导师签字:本学位论文作者完全了解保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视本授权书签字日期:年月日\
第滦髀文本挖掘概述及研究背景由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、的建立畗的缩减模式的提取辛垦燃鄄方心J自上世纪九十年代以来,互联网在我国的发展迅猛,网络上的信息也急速膨胀,成为海量的数据。可获取的大部信息是以文本形式存储在文本数据库中的,电子邮件和趁娴取H绾斡行У拇怼⒆橹⒗谜庑┬畔ⅲ晌5鼻叭类信息科技领域的一大挑战。由于文档本身是半结构化或非结构化的,应用传统的数据挖掘技术无法解决,于是,文本挖掘技术逐渐成为业界人士研究的热点,其中的分类技术作为文本挖掘中的关键技术,可以组织和处理大量文本数据,将文本自动分类,在很大程度上解决了网络信息杂乱无章的状态,本文研究的粗糙集就是文本分类技术中的一种。.谋就诰文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。文本挖掘也称为文本数据挖掘或文本知识发现,主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识,文本挖掘是从数据挖掘发展丽来,故也可以看成是基于数据库的数据挖掘或知识发现的扩展。与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义。有人把文本挖掘视为另~常用术语一文本知识发现耐宕剩灿幸些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本挖掘的一般过程表示如下图:特征囊卣骷痜昂椭b鹼J街蔍馐图甀文本挖掘过程山东师范大学硕士学位论文文客鬟
.谋就诰虻某S眉际文本挖掘中常用的技术有文本自动分类、聚类、文本总结和关联分析等。①文本自动分类文本的自动分类是指按照预先定义好的主题类别,由计算机自动地为文档集合中的每篇文档确定一个类别。它是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段。常用的文本分类方法主要有基于向量比较的分类技术和基于规则抽取的分类