文档介绍:摘要论文首先分析总结了国内外学者取得的主要理论研究成果,指出了现有研究中存在的问题,在此基础上提出了研究的内容和目标。接着从文本自动分类的过程出发,深入研究了文本自动分类各个步骤中的多项关键技术。然后,针对这些算法,同时确定算法中的参数最优值。另外,本文还提出了一种优化训练集的方本文从客运安全监管内容管理系统项目的需求出发,对于系统中不同类别的文本内容,利用实验验证的最优算法和软件工具,解决了内容管理系统中的文本自动问题,最终得出了实际问题的分类结果,具有一定的应用价值。随着互联网技术和信息技术的日臻成熟,人类社会开始进入了信息时代。企业在信息化的过程中,产生了大量的数据和信息资源,海量的非结构化内容也需要像结构化数据一样加以管理。企业迫切需要一种方法对所有内容进行科学高效的组织、管理和使用,以满足日益多样的业务应用,同时提高信息资源的管理效率,使之成为企业竞争力的重要组成部分。内容管理在这样的需求下应运而生,国外的分析表明,内容管理将成为下一轮软件市场竞争的热点。内容管理虽然前景乐观,但目前仍然存在着很多技术上的难题需要克服。比如在内容发布这一环节中,通常需要一个分类体系以便于用户查找和导航浏览。本文从这一角度出发,以文本格式的非结构化数据作为对象,研究内容管理系统中文本自动分类技术的应用。关键技术设计了一系列的实验,通过比较得出分类性能最优的降维技术以及分类法,并用实验证明了其可行性。最后,在实际项目背景下设计出内容管理系统下的文本自动分类子系统原型,并将前面的实验结论在项目中进行实际的应用。关键词:内容管理;文本自动分类;系统原型中文摘要
.瑂,琣瑃琣瓹,.,,琲..,甌,.,.
篊;英文摘要;瓵,瑆
日期:Ⅻ哆年碌笕论文作者签名:壬土穆不保密勺/朐谝陨戏娇蚰诖颉ひ弧大连海事大学学位论文原创性声明和使用授权说明保密口在——年解密后适用本授权书。原创性声明撰写成硕士学位论文基王凼查筐理数塞奎自麴盆耋的婴窥量应用::。除论文中学位论文版权使用授权书文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》泄跗诳光盘版缱釉又旧、《中国学位论文全文数据库》泄蒲Ъ际跣畔⒀芯克等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:导师签名:一上
,“缺乏有效发布能力的数字内容每年会花费公司,简称堑缱由涛袷贝男鲁琛D谌莨理涵盖企业内联网、因特网和企业外联网应用,大大突破了传统信息流管理软件、办公自动化软件以及文档管理软件的应用范围、使用效果和商业价值【。牡查数据显示,在未来几年里,亚太地区内容管理市场有望实现持续稳定增长,从年的亿美元增长到年的亿美元,年复合增长率达.%。在年上半年针对最终用户所做的一项调查显示,在受调查的鲋泄没中,接近%的用户表示有计划投资内容管理软件。在年的类似调查中,这一比例只有%多。这一结果表示,内容管理在组织中的优先级大大提高。随着τ玫纳钊肫占埃餍懈饕刀蓟哿舜罅康男畔⒆试础?蒲Ч芾砗秃理开发这些内部和外部信息资源已经成为企业正确决策、增强竞争力的关键。最亿美元,因为知识型雇员将时间浪费在寻找和获取完成他们的工作所需要的信息上。谝恍┲钊缯⒌缧拧⒔鹑凇⒚教宓纫阅谌菸F渲饕:诵囊滴竦男幸中,内容和应用程序代码已成为关键性资产。因此,要增强自身的全球竞争力,他们就必须将内容转化为推动商业成功的资产。与此同时,所有行业也都面临着管理各种格式的信息的挑战。客户对数据管理的需求已经超出了传统数据管理的概念。研究部门调查发现,在企业存储的大量数据中,传统关系数据库管理系统淼慕峁够萁稣际菪畔⒆芰康ィサ男畔⑹欠结构化的,包括纸上的文件、报告、视频和音频文件、照片、传真件、信件等。统计表明,非结构化“内容吭谝悦磕%的速度增长。而分析师估计,一般员工大约花费%的时间寻找工作所需的非结构化信息。一方面是低下的处理效率,另一方面是不断膨胀的内容量,简单的事实对比已经隐含了一个迫切需求:我们需要有一个工具,能同结构化信息一样,有效地管理我们的非结构