文档介绍：上海海事大学
硕士学位论文
基于SVM的Web文本分类研究
姓名:王琪
申请学位级别:硕士
专业:计算机软件与理论
指导教师:刘锋
20070601
摘要随着姆伤俜⒄梗系男畔⒃嚼丛椒岣唬ぴ龅氖荼澈笠刈许多重要的信息。用户使用现有的搜索引擎浏览页面时,虽然能部分解决“资源发现”的问题,但精度不高,不能满足实际需要。更重要的是不能发现隐藏在海量据背后的知识,造成了相对于海量数据的知识贫乏。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的、有用模式和隐藏的信息,需要对本信息进行数据挖掘,这就是谋就诰颉K孀臰文本数据的迅速增长,文本挖掘己经成为了数据挖掘领域的一个重要的研究方向。目前主要的文本分类方法有:最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。本文通过分析现有的文本分类,提出了基于改进腤文本分类方法。本文所做工作如下:樯芰薟数据挖掘的基本概念、分类和方法,以及现有谋就诰虻木咛险嫜芯苛送臣蒲袄砺鄣闹饕D谌莺椭С窒蛄炕幕驹怼2隽薙研究与应用的现状,以及所面临的问题。岢隽艘恢指慕牟⑿蠸惴ǎ溆τ糜谖谋痉掷嘀校⑼ü笛檠橹ち其有效性。岢隽艘恢种鞫暗腟算法,将其应用于文本分类中,并通过实验验证了关键字:网页文本挖掘;统计学习理论;支持向量机;并行学习;主动学习过程和相关理论。
,,,.仇甴..,瑀琫.。,.;簆籄;甌×琻
缝字:至:王理兰芏二望日期:兰乙』≥,论文独创性声明论文使用授权性声明坠兰叁本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其他机构已经发表或撰写过的研究成果。其他同志对本研究的制手段保留论文。保密的论文在解密后遵守此规定。启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签字:日期:本人同意上海海事大学有关保留、使用学位论文的规定。即:学校有权保留送交论文复印件,允许论文被查阅或借阅;学校上网公布论文的全部或部分内容,可以采用影印、缩印或者其他复导师签
第一章绪论课题的意义和目的随着计算机信息技术和网络技术的发展,使今天的晌P畔⒎⒉肌⒔换ズ获取的主要工具。万维网是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务,然而,互联网的快速发展却给我们带来了信息爆炸的问题,丰富的试粗性毯舜罅具有巨大的潜在价值的知识或者模式,人们迫切需要能够从峡焖佟⒂行У胤现知识和模式的工具。此时数据挖掘技术为解决这个问题提供了一种解决方案,而这些海量的数据源恰恰为数据挖掘提供了基本的支持。但是系男畔⒍际且熘实模半结构化的,趁娴母丛有愿哂谌魏未车奈谋疚牡担狈ν骋坏慕峁梗绺各异,而且这些海量文档也没有索引化,查找起来相当困难。此外械男畔⒍态性极强,不仅网页数量在猛增,页面内容也在不断地更新。竦挠没禾逡是形形色色的用户,有不同的背景,兴趣和使用目的,大部分用户并不了解息结构,很可能无法找到所需要的信息。面对前面提到的各种困难,传统的数据挖掘技术显然难以胜任,于是就推动了数据挖掘新主题萃诰虻姆⒄埂数据挖掘的绝大部分工作涉及的是结构化数据库,很少处理系囊熘省结构化的信息。凶试粗饕J怯蒞页面构成的,具有半结构化、复杂性等特数据都是以半结构化的形式存在,如技术报告、技术文档、甅ḿ页率龅取!币此在辖型诰蚓鸵=ù车氖萃诰蚣际鹾湍芄淮戆虢峁够莸募际踅上信息的特点是信息数量的巨大化、信息存在形式的动态化和信息管理需求的个性化,但是传统的进行手工分类的方法已经无法适应这种需要,而自动分类正在成为目前自然语言处理研究领域的一个热点。现在已经出现了许多自动分类的方法,但是由于渐进理论的条件不易满足或者由于难以修改或者由于文本向量的维数特别大等原因,导致分类效果不够理想。为了解决上面提到的这些谋景虢峁够⑼闲畔⒌睦丛幢冉瞎惴骸⑽谋向量维数特别大的问题,本文运用了主动学习技术以及庵质萃诰虻男碌姆点,最近一份的统计资料指出:“在和中%以上的合起来。法,同时改进了墓ぷ餍剩4佣岣吡薟文本挖掘的效率和准确率。上海海事大学硕士学位论文
的国外对文本挖掘的研究开展比较早,早期的信息抽取技术就是文本挖掘的雏形。他们在文本挖掘中的文本分类技术、关键词的自动获取和半结构化信息提取等相关的信息抽取领域进行了较为深入的研究,并取得了不少令人瞩目的研究成果““’“。国外普遍认为,文本挖掘的一般框架包括两个模块,一个是文本提炼,就是把任意格式的文本转化为可以用来机器学习的媒介格式;另一个是所谓的知识蒸馏,即从这种媒介格式中推导出模式或者知识。近年来,国外的文本挖掘研究进展较快,许多技术己经进入实用化阶段,并在邮件分类、电子会议、信息过滤等方面取得了广泛的应用。一些研