文档介绍：分类号学号 M201070359
学校代码 10487 密级
硕士学位论文
基于内容和情感的文本分类方法研究

学位申请人
:
张朝阳
学科专业
:
工业工程
指导教师
:
黄金国副教授
答辩日期
:
2013年1月12日
A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering
Research on Text Classification Methods
Based on Content and Emotion
Candidate : Zhang Chaoyang
Major :Industrial Engineering
Supervisor :Associate Professor Huang Jinguo
Huazhong University of Science &Technology
Wuhan 430074, . China
January 2013
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□, 在_____年解密后适用本授权书。

不保密□。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年月日日期: 年月日
摘要
文本分类在自然语言处理、信息组织、内容过滤等领域都有着广泛的应用。传统的K最邻近法具有简单、强壮、无参数、分类精度高的优点,但它需要计算一个新文本和所有训练文本的距离,因而需要大量的计算时间。针对这一问题,本文在使用K最邻近法之前先使用聚类方法对数据进行预处理,具体做法是使用CHAMELEON算法把训练集中的每个类聚成多个小簇,计算小簇的质心得到广义实例集,找到与未知文本最近的k1个广义实例,再用回溯法找到这k1个广义实例所代表的原始文本,从这些原始文本中找到与未知文本最近的k2个文本,用它们投票表决未知文档的归类。在Tan语料库和复旦语料库上的实验表明该方法能够达到与传统KNN相同的分类精度和召回度,而运行时间只需要KNN的十分之一左右。
在网络购物中消费者对商品的评论已成为电子商务信任机制的重要组成部分,但大多数电子商务网站还不能从语义层面上自动区分好评与差评。本文以《知网》情感词为种子词汇,提出了一种基于条件随机场的Bootrapping情感词挖掘算法,并利用互信息将这些情感词分为正面和负面两类。根据句子中包含正面和负面情感词的数目将电子商务网站上的图书评论自动分为好评和差评。对2026条图书评论作分类实验,正确率将近82%,说明了算法的有效性。
分词和特征项选择是文本分类的前期准备工作。本文通过在微软研究院提供的中文语料上做分词实验发现条件随机场要优于隐马尔可夫模型。信息增益、互信息、期望交叉熵和卡方统计量是四种特征选择的方法,本文的对比实验表明信息增益和卡方统计量这两种方法在文本分类中表现较好。
关键词:文本分类;情感挖掘;中文分词;特征项选择;隐马尔可夫;条件随机场
Abstract
Text classification has a wide range of applications in the field of natural language processing, anization and content filtering. Traditional K Nearest Neighbor method is simple, strong and free parameters,and can reach high classification accuracy, but it needs to calculate the distance between a new text and all of the training texts, thus it requires a lot puti