1 / 63
文档名称:

支持向量机理论在文本分类中的应用研究.pdf

格式:pdf   页数:63
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

支持向量机理论在文本分类中的应用研究.pdf

上传人:化工机械 2012/9/12 文件大小:0 KB

下载得到文件列表

支持向量机理论在文本分类中的应用研究.pdf

文档介绍

文档介绍:支持向量机理论在文本分类中的应用研究兰州理工大学硕士学位论文学校代号:级:学密号:
摘要面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的领域。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此对于非结构化信息进行挖掘成为继数据挖掘之后的又一课题。在常见的非结构化文本数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、新闻组、组织及个人主页。随着的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问针对上面提到的问题,本文的主要工作有以下三个方面:首先,分析了数据挖掘的基本概念和方法,重点是数据挖掘中文本分类的具体过程和相关理论。在特征选取技术中对互信息的方法做出了改进。其次,认真研究了支持向量机算法的基本原理。并且就支持向量机的训练算法、分类方法、多类别算法等热点问题分别加以讨论。阐述了支持向量机研究和应用现状,以第三,对支持向量机理论在文本分类中的应用技术做出了改进。针对传统薹适应文本数据库随时间不断更新的问题,通过对新增文本集的跫姆治觯钊胙究了加入新增文本集后支持向量集的变化,提出了使用增量惴ń形谋痉掷啵通过实验验证了通过该算法得到的分类器和传统的分类器有着相似的分类能力和泛化能力。最后,指出了对支持向量机进一步研究和应用需要解决的一些重要问题。关键词:数据挖掘;文本分类;支持向量机;跫辉隽题。及所面临的问题。硕宦畚
,琣.;瓺,甒甒瓵∞瑃甋·—甀瓼:支持向量机理论在文本分类中的府用研究、,.;籏Ⅱ
】住好日期‰.辏日作者签名:,氇镰豢日期;叩年‘月弓日日期:年日学位论文原创性声明学位论文版权使用授权书兰州理工大学本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。⒈C芸冢年解密后适用本授权书。本学位论文属于⒉槐C芡拧朐谝陨舷嘤Ψ娇蚰诖颉”作者签名:导师签名:日期:年耲日
第绪论课题的研究背景和意义我们正处在一个信息爆炸的时代甑耐臣平峁澜缑磕瓿霭娲笤种期刊,而这一数字以每年值乃俣鹊菰觥M保雒拦诰陀薪万种图书付印,这一数据还以平均每年蛑值乃俣仍黾印辏拦嵬际楣莶书约为万种,平均每天接受的新书多达种。另一个增长更为惊人的信息渠道为。年的统计结果表明,上有约亿个静态页面,每天增加将近。而且,在我们日常所接触的信息中,绝大部分信息是文本。它们或者以印刷品的方式存在,或者以电子文档的形式出现。近十多年来,随着的飞速发展,越来越多的文本信息表现为电子文档的形式。面对如此庞大而且急剧膨胀的信息海洋,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。因此,自动文本分类已作为一项具有较大实用价值的关键技术,得到了广泛的关注,取得了很大的进展。文本分类作为信息过滤、信息检索,搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。畔⒐网络的发展与普及,大大方便了我们获取信息。但信息量之大给人们对信息的处理带来了很大的困难,无法快速地得到用户所需的信息,同时还会带来一些反面的信息。信息过滤技术可以用来解决这些问题,信息过滤本质是一个两类分类问题,既可以用来将用户反感的信息滤掉,如黄色、淫秽、反动信息,也可以用来将用户感兴趣的信息过滤出来,主动地推送给用户,方便了用户快速准确的获取信息。把大量的文本信息按主题层次归类组织可以极大地简化对信息的检索。如果按照类别对文本进行检索或对检索结果进行一次文本分类,都可以提高检索的查准率。目前很多阉饕嬲镜愣际褂昧薟文本层次化分类组织。只是,目前主要以人工分类为主,褪钦庋随着研究的深入,文本数据库的功能已

最近更新

2024年绵阳飞行职业学院单招职业技能考试题库.. 40页

2024年苏州卫生职业技术学院单招职业技能考试.. 40页

2024年荆门职业学院单招职业倾向性考试题库含.. 40页

2024年菏泽家政职业学院单招职业适应性考试模.. 42页

2024年衡水健康科技职业学院单招职业倾向性考.. 40页

2024年衢州职业技术学院单招职业技能考试模拟.. 39页

2024年西安医学高等专科学校单招职业倾向性考.. 42页

2024年西安汽车职业大学单招职业适应性考试模.. 39页

2024年西安职业技术学院单招职业倾向性考试模.. 42页

2024年西昌民族幼儿师范高等专科学校单招职业.. 41页

2024年许昌电气职业学院单招综合素质考试模拟.. 40页

2024年贵州健康职业学院单招职业技能考试模拟.. 42页

2024年贵州工商职业学院单招职业适应性测试题.. 40页

2024年贵州省铜仁地区单招职业适应性测试模拟.. 40页

2024年贵州轻工职业技术学院单招综合素质考试.. 40页

2024年贵阳职业技术学院单招职业倾向性考试题.. 41页

2024年赣州职业技术学院单招职业适应性测试模.. 41页

2024年辽宁工程职业学院单招综合素质考试题库.. 41页

2024年辽宁机电职业技术学院单招职业倾向性测.. 40页

2024年辽宁理工职业大学单招职业倾向性测试题.. 41页

2024年辽宁省辽阳市单招职业适应性考试模拟测.. 41页

2024年辽宁经济职业技术学院单招职业适应性考.. 41页

2024年达州中医药职业学院单招职业技能测试题.. 41页

2024年连云港师范高等专科学校单招职业适应性.. 41页

2024年遂宁职业学院单招综合素质考试题库新版.. 40页

2024年遵义职业技术学院单招职业倾向性测试模.. 40页

2024年邯郸应用技术职业学院单招职业倾向性测.. 39页

2024年邵阳职业技术学院单招职业倾向性考试模.. 40页

2025年广州卫生职业技术学院单招职业技能测试.. 64页

美团代运营业务委托合同 6页