文档介绍:西北大学
硕士学位论文
WEB文本自动分类的设计与实现
姓名:聂璐
申请学位级别:硕士
专业:高校教师
指导教师:耿国华
20091219
摘要会生活的各个方面。谋痉掷嗉际醯牟谕缧畔⒓焖髦衅鸬骄僮闱嶂氐淖饔谩处理海量数据涉及到数据挖掘和数据库中的知识,因此诰蚣际鹾蚖信息检索技术得到迅速发展。而文本分类对于搜索引擎的发展也起着至关重要的作用,因此,本论本文对谋咀远掷嘀兴婕暗母飨罴际踅辛巳娴穆凼觯⒍怨丶际踅督学习下,通过训练集和测试集对分类器进行训练和测试。通过实验结果可知,该系统中文分词特征抽取随着网络技术的迅速发展,人们从峡梢曰竦玫男畔⒆试丛嚼丛蕉啵婕暗缴文着重讨论了文本分类的方法,促进现代信息产业发展。行了深入的研究。对现有的多种中文分词方法进行深入分析,并针对基于统计的分词算法提出了一种改进的分词算法,采用一种插值估计方法来解决数据稀疏问题,通过开放测试与封闭测试结果分析,可得到高召回率的粗分结果。在对特征提取方法进行深入研究的基础上,设计并实现了一个基于支持向量机的谋痉掷嘞低场8孟低晨梢栽诩的查准率、查全率和舛戎档戎副曜芴迳系钠骄刀冀细撸谋痉掷嘈Ч虾谩关键词:文本分类支持向量机
..曲甒,.瑃、析.,,、析甌猻琒瓵....篢,琒
月’夕日墨墼学位论文作者签名:戛垠抑陓籪湖炅沃籰西北大学学位论文知识产权声明书西北大学学位论文独创性声明本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名:指导教师签名:本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
第一章绪论课题背景国内外研究综述未有的速度向前推进。信息技术成为社会基本的生产力,成为各国政府推动经济增长的为电子载体。通过互联网,人们可以广泛、便捷地共享资源,更能迅捷地发布各类信息。这种开放、自由的交流方式和信息共享途径带来了信息资源的巨大积累。这些信息中绝谋痉掷嗑褪怯玫缒远晕谋炯或其他实体或物件凑找欢ǖ姆掷嗵逑祷虮曜的强烈需求牵引下,以及人工智能、信息检索和机器学习技术的推动下,文本自动分类信息时代,人们对信息技术依赖的程度越来越高,信息革命推动着全球经济以前所助推器。同时,信息技术深刻地改变着我们的工作和生活方式。网络技术、数据库技术的普及为信息革命提供了平台和有效的技术支持。现今,大部分信息己由纸质载体过渡大部分是非结构化或半结构化的文本信息,这就为如何快速有效地获取、管理和使用这些文本信息提出了更高的要求,已成为信息科学亟待解决的重要问题。由于现存的搜索引擎存在返回结果太多的问题,没有很好的组织性;另一方面大规模的信息检索成为信息化后必不可少的一项重要功能。基于文本自动分类技术恰恰是解决这一问题的有效途径。将文本自动分类技术应用到搜索引擎上,对用户查询的结果进行处理,以一种超链接的层次方式为用户提供个性化服务,大大提高了查询的查全率和查准率,便于用户快速查找到与查询请求相关的信息。.费芯进行自动分类标记,按照其主题将谋痉掷嗟皆は榷ㄒ宓娜舾衫啾鹬小1疚牟捎昧文本自动分类研究中的核心技术,在进行谋痉掷嘌芯康耐庇址治隽薟文本的结构以期合理利用谋镜哪谠诮峁剐畔ⅰ有关文本自动分类的研究,可以追溯到世纪年代目4葱怨ぷ鳎兰甏岳矗孀攀澜范围内对数字图书馆的研究的兴起,以及的普及和网络技术的不断完善,出现了大量的杂乱无章的信息,只有通过文本分类才能使人们快速准确的获取自己所需的信息,这样就使得文本自动分类技术得到了迅速的发展。近年来,在文本信息智能处理西北大学硕士学位论文“:
种智能算法在预先分类好的训练文档集中进行学习,归纳出分类规则,建立分类器,再根据这些分类规则对实际应用中的文本加以分类。该技术不受文本类别集大小的影响,并对几种较为流行的方法进行了大量的比较研究,结果表明惴ê蚐对英文文本定知识,加以应用,从而形成中文文本自动分类的研究体系。没有用空格自然地分开,而英文的词与词之间有明显的分隔符。以词作为最小特征来处批计算机辅助分类系统和自动分类系统,并取得了阶段性的成果。例如:清华大学吴军技术的研究越来越得到学术界广泛关注和重