1 / 79
文档名称:

面向信息服务的Web文本分类技术研究.pdf

格式:pdf   页数:79
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向信息服务的Web文本分类技术研究.pdf

上传人:numten7 2014/2/20 文件大小:0 KB

下载得到文件列表

面向信息服务的Web文本分类技术研究.pdf

文档介绍

文档介绍:国防科学技术大学
硕士学位论文
面向信息服务的Web文本分类技术研究
姓名:隋福宁
申请学位级别:硕士
专业:管理科学与工程
指导教师:杨强
2010-11
国防科学技术大学研究生院硕士学位论文
摘要
信息技术的发展使得网络用户对信息资源的需求产生了更加复杂和差异化
的变化。如何从海量的网络信息中快速准确地找到用户需求的信息数据是信息服
务研究的主要问题。同时随着信息网络的发展,信息服务的范围逐渐扩大,服务
深度和服务内容都在往更高的层次发展。影响信息服务质量的两大因素是服务对
象的需求描述准确度即服务对象模型准确性和数据挖掘的准确性。服务对象的兴
趣以及需求描述不准确就从根本上决定了信息服务的针对性和个性化水平不高;
而数据挖掘水平的高低也直接对信息服务质量产生重大影响。本文立足两大因
素,在服务对象建模和数据挖掘领域中文本分类技术进行了针对性研究。
本文对信息服务对象建模技术以及中文文本分类技术进行了归纳总结,主要
讨论了信息过滤、用户兴趣描述为主的信息服务技术以及中文文本分词、文本数
据化表示、文本特征提取、文本分类器构建等文本分类流程中涉及的主要技术。
比较了基于规则的分词方法和基于统计的分词方法的差异,研究了特征提取中的
信息增益、CHI 统计、互信息等特征选择方法和潜在语义索引(LSI)等特征抽
取方法,对比了各自的优劣性;在文本分类方法中介绍了朴素贝叶斯方法、KNN
方法以及支持向量机(SVM)分类器的分类原理;同时讨论了语料库的构建规
则以及中英文语料库的构建现状。
在分析传统特征降维方法的基础上,对信息增益方法进行改进得到一种新的
特征选择算法,通过绝对相关的概念以及对干扰特征的消除方法来对该算法进行
改进,有利于消除信息增益过程中产生的干扰特征;将国外基于知识库的特征提
取方法在中文知识库中进行了尝试,并分析了其优劣性;通过对网页链接结构的
分析以及 PageRank 算法的引用,尝试了基于网页结构信息的特征权值调整方法
TermRank,并通过成熟的 SVM 分类器对此进行了对比实验。
对信息服务对象描述与建模技术进行了深入研究并产生了一种完整的服务
对象模型描述与建立、更新方法。在对中文分类器研究的基础上特别针对神经网
络分类方法进行讨论,结合最小-最大模块网络(Min-Max Modular)分解组合优
化方法与传统的 BP 神经网络,运用 MATLAB 进行了仿真实验。

关键词:信息服务特征选择用户建模文本分类神经网络
第 i 页
国防科学技术大学研究生院硕士学位论文
Abstract
The rapid development of information technology has changed user’s
requirement for plex and individual resources. It is the main task for
information service to search and hunt the needed data exactly and quickly from the
mass information . The range of information service has been expanding and it
is developing into a higher degree. The two main elements that affect the quality of
information service are the precision of user’s requirement-describing and the effect
of data mining. This paper focused on these two elements and researched on the
modeling of user’s requirement and the technology of text categorization.
This paper summarized the key technologies of user’s modeling and text
categorization, including information filtering, interest describing, word segmenting,
text expression, feature selection and exaction