文档介绍:摘要类算法的鲁棒性和泛化能力!@葱拚铀乇匆端狗掷嗨惴ǎ迪至嘶谌斯ぶ悄芗本信息处理,通过摒除模糊系统和神经网络各自的缺点,结合各自的优点——模糊系统背景下,从理论、算法改进和实现三个层次来讨论文本自动分类技术。所得到的结果尽管精确但却难以与实际应用较好地联系起来,亦即高精度的结果却导致术的贝叶斯文本分类系统,并对其修正前后的分类性能作了比较分析。实验结果表明修确率分布的平滑性,从而得到了更接近人脑知识分类处理的分类结果。关键词:文本分类;朴素贝叶斯;模糊系统:神经网络;人工智能随着信息时代的来临,特别是因特网对人们生活的全面介入,大量以文本格式存储的信息出现在、数字图书馆及公司的上,如何从这些海量信息中快速、准确而全面地获取所需要的信息成为信息处理领域的研究热点。基于人工智能技术的文本自动分类成为研究解决这个问题的重要支撑技术之一。本文的目标就是在文本分类的本文首先全面分析了当前文本自动分类领域关键技术和算法,同时阐述了典型文本自动分类系统的核心技术和系统结构,并对文本分类的应用范畴作了总结。从统计学角度来看,传统的统计学文本分类算法尽管强大,但是它们总是基于很强的假设条件才成立,而实际应用中这些假设条件大多数情况遣怀闪⒌模虼耍丢失了很多文本固有的结构信息。本文深入研究了基于统计学的最为简单却强大的朴素分类算法,从统计学角度研究了其应用前提一偕瑁即所有文本特征向量元素服从独立同分布。实际上,文本上下文之间存在必然的语义关联,也就是说文本特征向量元素之间不可能绝对服从独立同分布。因此,严格意义上讲,这一假设在实际文本中并不成立。针对朴素贝叶斯文本分类算法上述先天性不足,本文将模糊系统和神经网络引入文的基于知识先验规则性质屑喽椒掷嘟岷辖裘和神经网络较强的学习能力銮糠正算法不仅大大提高了朴素贝叶斯分类系统的分类准确度,而且还改善了训练集分类准贝叶斯
知识水坝为您整理
三奎三些查兰三耋堡圭耋堡丝圣瓼曲琣,,.瑃;,,甌.,甌痶琭瓵篢;籉籄’
知识水坝为您整理
⒄要目标,而基于人工智能技术的文本自动分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而将这些海量的、多种类型、不同语种、来源复杂的信息资源及时收集、有效整合,更好地帮助人们组织及挖掘文本信息,因此得到目益广泛的关注,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,成为信息处理领域最重要的研究方向之一。国外对文本自动分类的研究始于世纪年代末,甊首先将词频统计思想用于自动分类,在该领域进行了开创性研究。年,贘浜笮矶嘌д咴谡庖涣煊蚪辛俗坑谐尚У难芯俊从世纪年代直到世纪年代末,这期间最有效的文本分类系统一直是由专家人工构建的基于知识工程技术的分类系统。其典型应用就是卡内基集团委托路透社开发的系统,它主要是由专业人员编写一些分类规则来指导分类,在架起桥梁,二者缺一不可,如果这种分类器被转到完全不同的领域,工作必须重新开始。姆掷嗉际蹩J既〈谥J豆こ痰姆法成为文本分类的主流技术。这种方法通过归纳文本集的特征自动创建一个分类器,这些文档集合事先被领域专家人工地分类到类集可作为一个规则决定文档欠袷粲诶郈,。如果类集桓拢蛘呦低骋Sτ玫狡渌不同的领域,只需要重新构造一个人工分类集合,通过机器学习,自动的构造一个分类资源,同时加快了分类系统的建立速度。近年来,研究者们结合机器学习方法和人工智能技术进行了大胆的探讨,提出了多随着信息技术的发展,特别是τ玫钠占埃嗣且丫有畔⑷狈Φ氖贝渡到了信息极大丰富的时代,以文本格式存储的海量信息出现在、数字图书馆及公司的上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重了有关自动分类的第一篇论文《的部分语料库上它的效果非常好,平均准确率和召回率大约都可以达到%,但是在其他应用领域采用系统将会消耗大量的人力和物力。这种自动分类器构造方法的缺点是知识获取瓶颈的存在,它必须要为领域专家获取的知识和知识工程师的表示之间年代初期,基于机器学习海琧。母鞲隼郼,中,分类器器。显然这种分类方法不再需要知识工程师和领域专家的介入,节约了大量的专家人力戏⒈琾
.形奈谋痉掷嗟姆⒄褂胂肿目前,国外的自动分类系统已经从最初的可行性研究经历了实践研究进入了实用化年,笛槭业腄等人研究了基于向量空间模型的自动分类系统。同年,美国大学计算机系的等人运用信息熵理论、砺鄣仁迪至硕嗬嗪诺淖远掷唷K婧螅拦鶰大学计算机系专门针对文本库开发了自动分类系统,美国蚈疚M乒愕从计算机管理分类、计算机分类检索、计算机自动分类、机编分类等四个方面介绍了国大学以及新加坡、香港和台湾的一些大学的著名学者在该领域做出了一些研究成果,研制出一批基于词典法和基于专家系统的自动分类系统。由于中