文档介绍:吉首大学
JISHOU UNIVERSITY
毕业设计(论文)
题目:文本挖掘中文本特征表示与文本特征选择研究与实现
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名: 日期:
指导教师签名: 日期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名: 日期:
文本挖掘中文本特征表示和文本特征选择研究与实现
摘要:文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行概述,给出文本挖掘的定义和研究现状。然后对文本挖掘中文本特征表示和文本选择方法进行叙述,本文介绍了几种文本挖掘中文本特征表示和文本特征选择常用算法,通过比较本文主要选择TFIDF算法对完成文本特征表示和特征选择,其中TFIDF算法因其算法相对简单、并有较高的准确率,一直受到相关研究人员和众多应用领域的青睐。由于本文主要进行的是文本的特征表示和特征选择,所以没有对分词进行研究,对于中文文本中的词的问题我们采取对将要挖掘的文档进行手动分词,通过TFIDF对选定文档的词计算出这些特征项在文本中的权值,同时这些特征项也可以转化为结构化的形式数据保存,作为文本的中间表现形式,然后在算法中定义一定的取值范围作为特征选择,实现挖掘出文本关键信息的目的。本文通过程序实现TFIDF算法计算特征权重得出文本特征项和文本关键信息,对所选课题进行一个应用性模拟。
关键字:文本挖掘,特征表示,特征选择,空间向量模型,TFIDF。
This text mining text characteristics and text feature selection and implementation
Abstract: text mining, also called text data mining or text knowledge discovery, refers to the mass of the text of the implied that previously unknown, and potentially useful mode process. This paper Outlines of text mining, gives the definition of text mining and research status. Then the characteristics of text mining Chinese text selection method and narration, this paper introduces some characteristics of the Chinese text mining and text feature selection methods, through parison of the main selection algorithm of plete text features TFIDF feature selection, and the algorithm for TFIDF algorithm is relatively simple, and the high accuracy, have been related researchers and numerous applications. Because this major is characteristic of text representation and feature selection, so no word to study for Chinese text, the word of the problem, we will take the document for manual excavation, through the word for the sel