文档介绍:迹、.甶一茹膨瓣文黄!对系篓◆荔阳彬寿篓黧一;荔基。榭扩春三:脚斯艄兰一荔敲贜刈姘嫡ヒ籭≥攀∪⑵交制膨尚。;嘌耋一筹篡翥删卜裂翌篙篙┙乓恢驮似们膨鳃信兰’鬟篡篡篡纛渺彬任胁惭竺冀篡纛藤瓣榭淄删,中文自动文本分类系统的买批。乒口隆#撼暮苤胁捎玫闹饕阅承┕丶憬衘展歹磺菀厶弱仳】鬭P偷亩懒ⅰM双叹。石一。就中文自动文本分类系统进行了一些研九。研究的主要内容包括:刑的中文文本表示。对主流的文本表示模型⑿辛朔治霰冉希谎芯苛薔。酽砸一深》州
知识水坝***@pologoogle为您整理
语料库、对语料库进行调整等方法,对语料库的规模与质量对分类系统的影响进行了研究。实验结果给出了语料库所要遵循的标准。论文的组织如下:首先指出了本研究的意义,介绍了该领域研究的发展概况;随后在第二章和第三章对统计语言模型、文本分类系统的结构设计及若干关键问题进行了阐述;第四章在前面的基础上给出了系统实现,对系统实现过程所遇到的问题与解决方法作了展开;第五章介绍了研究过程中实验所采用的评价标准、系统、语料库以及实验结果,并对实验结果进行了分析;最后是总结和展望。关键词:自动文本分类狦P捅匆端狗掷嗥饔锪峡北京邮电大学硕士论文
知识水坝***@pologoogle为您整理
荌., 卫猤,琣北京邮电大学硕士论文琲.‘,瓵琲:..●,‘●,.●
..,籲北京邮电大学硕士论文疭甌甌痙。÷,甊篺甌痳,甌籥;;..‘
歪怠!翅骛日期:丝里每:三:丝翌丕:邵保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论独创性虼葱滦声明申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明文注释:本学位论文不属于保密范围,适用本授权书。导师签名:本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑意。’。
第一章概述弟一早迎自动文本分类问题的提出然而,每个人都或许会有这样的经历——我们想要查找某件商品的具体信信息,是今日世界的主题。大到政治经济,小到穿衣吃饭,信息无处不在的发挥着巨大的作用。互联网拉开了信息时代的帷幕,当人们还沉浸在信息的极大丰富所来的喜悦的时候,爆炸式增长的信息却如同一匹脱缰的野马,越来越不能为人们所驾驭。为了有效的帮助人们从泛滥的信息中准确找到自己所需要的信息,信息检索技术应运而生。而,,戎阉饕娴某鱿郑笥懈谋淙们生活方式的趋势。一下”已经成为今日流行的口头禅,用搜索引擎作指引生活日渐成为人们的一种习惯。息,而搜索引擎提供给我们的却是一大堆经销商的信息,我们真正想要的商品信息隐藏在毫不起眼的一个犄角旮旯。如果能够对搜索结果进行分类,将广告信息和商品信息区分开,那么搜索结果的有效性将会产生质的飞跃。如果还能指定搜索引擎在我们预先设定的类别里面进行查找,那么搜索速度也将大幅提高,由此所带来的搜索体验也将大不相同。赐乒愕腉乘阉鳌新闻、程厣阉鳌镜厮阉鳌笱阉鳌术搜索等等无不是为这一目的而生。分类查找的前提,就是要对现有的信息资源进行分类。当这种工作量远远超出人力所及范围的时候,就需要采用自动文本分类技术,让计算机对文档进行自动分类。人们对文件分类进行管理的习惯由来已久,图书馆中所有图书都是按类别进北京邮电大学硕士论文“”,“
自动文本分类发展综述这三个功能,分别对应了决定一个自动文本分类系统优劣的三项主要技术一一文本表示模型,特征选择和分类器。行保存的就是一个最好的证明。在自动文本分类实现之前,这项任务通常是由一些领域专家来完成的。对于一片新文本,在领域专家们阅读和理解之后,他们会把文本归类到一个或者多个类别中。这样的工作量是巨大的,而且是不可避免的。举个简单的例子,我们如果要对、的人民日报的所有文章进行分类约,篇文章进行分类匆桓鋈艘恍∈蹦芄欢詉篇文章进行分类计算,每天工作∈保饩褪个人龉ぷ魅盏墓ぷ髁浚艺庵还有人为错误不可避免。而今天的网络,一天所新产生的文本就远远超过这个数字。新文本的铺天盖地之势,会让任何试图尝试挑战他的人都望而却步。而自动文本分类系统的出现,为海量信息处理提供了可能。文本分类,简单的说就是把一片新文本归类到