文档介绍:⑧面向谋炯焖鞯墓橐换蛄糠掷嗨惴重庆大学硕士学位论文跹重庆大学计算机学院业:计算机软件与理论学科门类:工学二欢晁脑学生姓名:孙启干指导教师:钟将副教授专
⑧..’篊甈甖珻一一一
摘要信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作,简记文本分类算法。为文本形式的τ萌匀皇腔チM闹髁饔τ谩H绾未哟罅康腤文本中更加有效的检索信息,依然是许多科研人员所面临的难题。文本自动分类技术,不仅是自然语言处理领域的一个重要分支,而且是信息检索和数据挖掘的基础和重要组成部分。面对每天数以亿计的互联网谋疽趁娴母拢攵訵信息检索的文本分类技术,不能仅仅考虑分类算法的正确性,还要考虑分类算法的效率。本文从分类的精度和时间性能两方面作为切入点,提出了一种分类精度高,训练和分类时问代价小的归一化向量本文首先介绍了信息检索和文本分类的背景知识和相关过程,然后对已有的典型特征选择方法和文本分类算法做了较详细描述。通过对已有方法与技术的总结,提出了一种基于矩阵投影运算的特征选择方法和归一化向量掷嗨惴ā方法属于概率模型的特征选择方式,不仅考虑词的文档频率,并且还考虑了词的平均出现频率。对信息增益、卡方校验⑽牡灯德⒒バ畔和矩阵投影特征选择做了对比分析;并且采用多种分类算法验证特征选择方式是可行有效的。掷嗨惴ㄍü顾踉怂憬ǜ呶牡ダ啾鹣蛄靠占溲顾醭傻臀墓橐换量,并通过归一化函数礁突蚨允对归一化向量的特征权重进行调整,较好地训练出分类模型。本文分别采用三套不同平衡性和语种的较大规模谋拘语料库.,五种特征选择方法、、、退闹址掷嗨惴隽舜罅慷娴亩员仁验来验证惴ǖ氖涤眯院透咝浴算法训练和分类速度是五种算法中最快的,分类精度在中文语料库上略低于撬俣确矫嬗隨相比占有绝对优势;而在语料库上算法能够取得最优的分类精度和时间. 性能。关键字:信息检索,文本分类,特征选择,矩阵投影,归一化向量中文摘要
襑..瑃,,,,,,.,琈琣,’..’,畉.
:重庆大学硕士学位论文琽,—————————————————————————————————————————————————————————一瓼琤,.,,瑃,琺
目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一英文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯髀邸喙刂J督樯堋信息检索⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.文本分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究目的及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.谋静杉文本表示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.常见分类模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文工作及组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.文本分类过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..莱婕际酢趁娲怼文本预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⑽拇怼中文处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.S么嗜コ特征选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⒃ⅰ.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⑽.
鹸特征选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯谋痉掷嗨惴ā笛橛胄阅芷拦馈芙嵊胝雇重庆大学硕士学位论文分类器性能评估指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯时间复杂度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文工作总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.倩芈省⒆既仿视隖黄啦庵怠.⑵⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯特征选择思想⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯特征选择过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯特征选择分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯特征选择小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯