1 / 53
文档名称:

基于概念描述及内容扩展的短文本分类方法研究.pdf

格式:pdf   页数:53
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于概念描述及内容扩展的短文本分类方法研究.pdf

上传人:vyyolyg827 2014/4/11 文件大小:0 KB

下载得到文件列表

基于概念描述及内容扩展的短文本分类方法研究.pdf

文档介绍

文档介绍:基于概念描述及内容扩展的
短文本分类方法研究







重庆大学硕士学位论文
(学术学位)

学生姓名:杨天平
指导教师:朱征宇教授
专业:计算机软件与理论
学科门类:工学






重庆大学计算机学院
二 O 一三年四月
Research on Chinese Short-text
Classification based on Concept Description
and Content Extension



A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Master’s Degree of Engineering
By
Yang Tianping

Supervised by Prof. Zhu Zhengyu
Specialty: Computer Software and Theory


College puter Science of
Chongqing University, Chongqing, China
April 2013
重庆大学硕士学位论文中文摘要

摘要

随着信息时代的发展,使得人们越来越依赖手机和互联网获取信息,而在这些
信息中有很大的一部分都是以短文本的形式存放,因此对这些海量短文本的挖掘
能够很好的了解用户的兴趣信息和舆情走向,帮助我们精确的投放广告和了解用
户的观点立场。但是由于短文本的文本长度较短,通常不会超过 160 个字符,而
传统的文本挖掘方式往往依赖于文本中的词频等统计信息,因此传统的文本分类
算法应用到短文本上效果难以满足人们的要求。基于这样的背景,本文对短文本
分类相关的技术进行了研究和探索。本文的主要工作和贡献在于:
①首先,针对文本处理中的近义词或者同义词,本文通过《同义词词林》构
建了一个概念词表,使本文中对短文本进行的处理提高到概念层,使得近义词和
同义词在概念层得到统一的概念,提高检索相似概念短文本的准确率;
②其次,在真实短文本语料的基础上,构建了一种使用概念描述的短文本分
类方法。该方法首先对待分类短文本进行一个“概念化”的扩展,即使用 BM25 算
法到数据库中检索和待分类短文本拥有相似概念的训练短文本,组合形成长文本,
然后使用传统长文本分类器进行分类。该方法充分挖掘了短文本所包含的语义信
息,并利用了传统文本分类方法研究相对成熟的特点,将短文本分类问题转化为
长文本分类问题,实验结果表明该方法可以提高短文本分类的准确性;
③进而,对待分类短文本扩展时使用的 BM25 算法进行了改进。在对待分类
短文本进行检索拥有相似概念短文本的过程中,本文使用的是信息检索领域经典
的 BM25 算法进行排序,但是 BM25 算法对文档中每种词性的词并不进行一个区
分加权,而这在短文本分类环境中是较为重要的,本文对 BM25 算法进行了一个
改进,加入了词性的权重。实验结果表明该改进可以进一步提高短文本分类的准
确性。
④最后,基于从网络上抓取的短文本测试集,对上述短文本分类方法及优化
方法分别进行了对比性的科学实验,初步验证了提出方法的科学性和有效性。

关键词:短文本,分类,概念化,BM25 算法
I
重庆大学硕士学位论文英文摘要

ABSTRACT

With the development of the information era, the majority of people e
increasingly dependent on mobile phone or to obtain information, most of
which is largely stored as short text. And thus it is necessary and helpful to mine those
short texts which contains an enormous amount of information on users’ interests,
personal preference and public opinions with the aim of targeting ads to potential users
and understanding users’ needs