1 / 64
文档名称:

基于文本处理技术的中文电子邮件分类系统的设计与实现.pdf

格式:pdf   页数:64
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于文本处理技术的中文电子邮件分类系统的设计与实现.pdf

上传人:coconut 2014/2/28 文件大小:0 KB

下载得到文件列表

基于文本处理技术的中文电子邮件分类系统的设计与实现.pdf

文档介绍

文档介绍:南京航空航天大学
硕士学位论文
基于文本处理技术的中文电子邮件分类系统的设计与实现
姓名:仲婷
申请学位级别:硕士
专业:计算机应用技术
指导教师:陈兵;谭晓阳
20070101
南京航空航天大学硕士学位论文

摘要
垃圾邮件过滤是互联网领域内一个重要的研究课题。然而垃圾邮件自动过
滤的一个主要难题是垃圾邮件的定义具有主观性,而且在一个用户眼里的垃圾
邮件,在另一个用户眼里可能包含对其有用的信息,针对这一难题,对电子邮
件进行基于内容的分类比单纯将邮件划分为垃圾,非垃圾意义更大。
解决电子邮件基于内容的分类是文本分类技术的一个重要应用,因此本文
首先介绍了文本分类技术的一些基本概念和文本自动分类的背景,系统讨论了
文本自动分类的过程,深入研究了实现中文电子邮件文本自动分类系统所涉及
的各个方面的理论和技术。对文本分类中所涉及的关键技术,包括向量空间模
型,特征提取,机器学习方法,进行了理论阐述和算法描述。
然后本文提出了一个电子邮件自动分类系统的实现方案,给出了一个基于
文本分类技术的电子邮件分类系统的体系结构,借鉴了中科院的汉语词法分析
系统 ICTCLAS 和概率句法分析器 PROP 对电子邮件文本进行了分词和句法分析,
使从电子邮件文本抽取出的索引项更大概率地趋向于焦点词,从而提高了系统
的准确率和召回率,对简单向量距离分类法进行改进,提出了阀值的概念,采
用百分比阀值确定法,并应用到邮件分类系统中,加强了邮件分类系统的分类
功能。利用 VC 技术对电子邮件文本自动分类系统的功能模块进行了实现。
结果表明,基于改进的简单向量距离算法能有效提高系统的分类功能,使
系统分类效果可以达到预期的召回率和准确率。

关键词: 电子邮件分类,文本分类,向量空间模型,邮件解码,中文分词,特
征提取,阀值,简单向量距离法
i
基于文本处理技术的中文电子邮件分类系统的设计与实现
ABSTRACT
Spam filtering is an important problem to be researched in the field of .
The main problem with spam filtering is the definition to spam is subjective, and a
mail, which might be spam to one user, might contain useful information to another
user. In some senses, classifying e-mails by their contents is more meaningful than
just simply classifying them into spam and non-spam.
Classification of e-mails by content is an important application in the field of
text classification technology; therefore the thesis first introduced the basic concepts
as well as the background of the text classification technology, and discussed the
process of text automatic classification systematically. The key technology related
in text classification, including vector space model, feature abstraction, machine
learning methods, was expounded theoretically and described in algorithm.
Then the implementation plan of e-mail automatic classification system was
brought out, and the system architecture based on text classification technology was
given out. For reference, the realization of segmentation and syntactic analysis o