1 / 52
文档名称:

基于支持向量机的文本分类算法的研究与实现.doc

格式:doc   页数:52
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于支持向量机的文本分类算法的研究与实现.doc

上传人:799474576 2013/7/17 文件大小:0 KB

下载得到文件列表

基于支持向量机的文本分类算法的研究与实现.doc

文档介绍

文档介绍:学号:2009030114
哈尔滨师范大学
学士学位论文
题目基于支持向量机的文本分类算法研究与实现
学生李慧颖
指导教师李红宇副教授
年级 2009级
专业计算机科学与技术
系别计算机科学与技术
学院计算机科学与信息工程
哈尔滨师范大学
学士学位论文开题报告
论文题目:基于支持向量机的文本分类算法研究与实现
学生姓名:李慧颖
指导教师:李红宇
年级:2009级
专业:计算机科学与技术
2013年3月1日
课题来源:
指导教师指导选题
课题研究的目的和意义:
的普及与应用,互联网上的电子文档信息急剧增加。如何从大量的信息中快速、准确地检索到所需的信息资料,是人们普遍关心的问题,也是计算机工作者急需解决的问题。面对如此复杂的问题,分类技术在信息检索、信息过滤、数据挖掘等方面起着至关重要的作用。而网上的大部分信息以文本的形式存在,于是文本自动分类技术就成为网上信息检索和信息过滤的关键。另外,文本分类可以应用到垃圾邮件的判定(spam or not spam),类别{spam,not-spam};新闻出版按照栏目分类,类别{政治,体育,军事….};词性标注,类别{名词,动词,形容词…);词义排歧,类别{词义1,词义2….),文本检索,文本过滤以及主题发现与跟踪等。而从Springer全文电子期刊与IEL(IEE,IEEE)数据库中,可以看到最近的期刊与国际会议论文,有大量的关于文本分类的文章,说明随着大量的网上的电子信息,文本分类仍是人们研究的热点。
面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种传统的人工分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力;二是存在分类结果一致性不高的问题。这就要求我们探索计算机自动进行文本分类的有效方法,使得分类的正确率提高。只有这样才能保证检索的查全率和准确率都得到提高。文本自动分类是人工智能技术和信息检索技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术。文本分类是指根据一些已经分配好类标签(这些类标签预先定义好)的训练文档集合,来对新文档分配类标签,其目的就是对文本集进行合理处理和组织,使得这些文本能够按照类别区分开来。作为知识的组织工具,它为信息检索提供了更高效的搜索策略和更准确的查询结果,其中,高效性在于用户可以首先确定查询的可能类别,以减小需进一步匹配的文本数量:有效性在于相似的文本很可能与相同的查询相关,这样使得检索的查全率和准确率都得到了提高。
国内外同类课题研究现状及发展趋势:
:
第一阶段(1958——1964):研究文本自动分类的可能性;
第二阶段(1965——1974):进入文本自动分类的实验性阶段;
第三阶段(1975——1998):文本自动分类的实用性阶段;
第四阶段(1990——至今):因特网文本自动分类研究阶段。
在20世纪80年代术以前,基于知识工程的方法一直在文本分类方法中占主导地位。这种方法是由专业人员手工编写分类规则来表达领域专家所拥有的知识,将文档分到某个给定的类别体系中。这种方法需要有领域专家,还需要知识工程师手工编制大量的推理规则。其最典型的应用是卡内基集团为路透社开发的Construe系统。90年代以来,随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展,新型机器学习方法的不断涌现,基于机器学习的分类技术开始取代基于知识工程的方法,成为文本分类的主流技术。
,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,有越来越多的人借鉴国外的一些研究成果,结合中文的特点进行中文文本自动分类的研究。中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类。复旦大学的周水庚等人用了N-gram方法对中文文本进行分类尝试,从文档中提取N-gram属性,然后用ON方法判别文本类别,摆脱了对词典和切词处理的依赖,实现文本分类的领域无关性和时间无关性。刁力力、石纯一等用Boosting来组合决策树(Stllnlps)的方法进行文本分类。卜东波从信息粒度的角度来剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类。庞剑峰等应用向量空问模型进行了中文文本分类实验,并同时对文本分类所涉及的关键性技术,例如特征提取,不同机器学习方法等进行了研究和探讨,给出了评估方法和实验结果。之后他又验证了在文本分类系统中应用反馈方法的可行性,给出了结合反馈方法的文本分类算法。
课题研究的主要内容和方法,研究过程中的主要

最近更新

2024年赣东学院马克思主义基本原理概论期末考.. 12页

2024年辽宁理工学院马克思主义基本原理概论期.. 12页

2024年通江县幼儿园教师招教考试备考题库带答.. 30页

2024年郑州亚欧交通职业学院马克思主义基本原.. 13页

2024年鄢陵县幼儿园教师招教考试备考题库附答.. 31页

2024年重庆第二师范学院马克思主义基本原理概.. 12页

2024年长春职工医科大学马克思主义基本原理概.. 13页

2024年阜城县幼儿园教师招教考试备考题库带答.. 31页

2024年陇县幼儿园教师招教考试备考题库带答案.. 31页

2024年集宁师范学院马克思主义基本原理概论期.. 12页

2024年靖宇县招教考试备考题库带答案解析(夺.. 30页

2024年黄河科技学院马克思主义基本原理概论期.. 13页

2024年齐鲁医药学院马克思主义基本原理概论期.. 13页

绿意城市空间下的人文需求与空间营造 35页

高维空间的几何统一研究 35页

股权激励机制优化 35页

2025年上饶卫生健康职业学院马克思主义基本原.. 12页

绿色修复技术研究进展 35页

负载均衡与资源隔离技术 35页

2025年云南三鑫职业技术学院马克思主义基本原.. 12页

高导电性材料的多尺度结构调控 37页

2025年任县招教考试备考题库附答案解析 30页

2025年元江县幼儿园教师招教考试备考题库及答.. 31页

绿色货币政策与能源转型联动机制 35页

2025年内蒙古巴彦淖尔盟单招职业适应性测试题.. 45页

2025年南京传媒学院马克思主义基本原理概论期.. 13页

2025年南和县招教考试备考题库附答案解析 31页

绿色建筑市场竞争力 35页

2025年叙永县招教考试备考题库带答案解析 30页

网络信息流可视化 31页