1 / 66
文档名称:

基于语段的潜在语义分析技术研究.pdf

格式:pdf   大小:4,003KB   页数:66页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于语段的潜在语义分析技术研究.pdf

上传人:陈潇睡不醒 2021/10/31 文件大小:3.91 MB

下载得到文件列表

基于语段的潜在语义分析技术研究.pdf

相关文档

文档介绍

文档介绍:分类号 密级 公开
U D C
学 位 论 文
题目:基于语段的潜在语义分析技术的研究
研 究 生 姓 名 :毕臣
学 科 专 业 名 称 :计算机软件与理论
研 究 方 向 :人工智能及其应用
论 文 类 型 :基础研究
申 请 学 位 :硕士
指 导 教 师 姓 名 :蔡东风
指 导 教 师 职 称 :教授
指 导 教 师 单 位 :沈阳航空航天大学
论 文 提 交 日 期 :2013 年 12 月 23 日
论 文 答 辩 日 期 :2014 年 01 月 04 日
沈阳航空航天大学
2014 年 01 月
SHENYANG AEROSPACE UNIVERSITY
THESIS FOR MASTER’S DEGREE
RESEARCH OF LATENT SEMANTIC
ANALYSIS BASED ON PARAGRAPH
Candidate:Chen Bi
Supervisor:Dongfeng Cai
Specialty: Computer Software and Theory
Date: January, 2014
沈阳航空航天大学硕士学位论文
摘 要
潜在语义分析技术作为一种基于统计的无指导数据挖掘技术,被广泛应用于信息检
索、文本分类等多领域。该技术作为向量空间模型的一种优化技术,对于挖掘特征之间
基于上下文和共现的潜在语义结构信息,具有良好的抽取作用。该技术通过将特征与文
档映射到较低维度的潜在语义空间中,对原始向量空间模型进行降维,同时降低文本噪
声、凸显特征之间的潜在语义关系。打破了特征独立性假设条件,对文本有较好的描述。
目前对于潜在语义分析技术的研究,多集中于相关数学模型与特征权重的分析及优
化工作,而针对潜在语义空间的优化研究相对较少。同时,在将该技术应用于文本分类
时,多数研究着眼于如何从分类文本中筛选特征以进行后续工作。对特征如何影响潜在
语义空间的构成、进而影响系统的分类性能,则研究较少。针对以上问题,本文的研究
重点定位为,当使用语段取代原始文本进行潜在语义分析时,特征共现对潜在语义空间
的影响。
本文通过研究特征共现原理,对上下文和文档全局特征分布进行分析,并在大量实
验研究和数据分析的基础上,提出了子语段和伪语段的语段概念及其构建方法。将两种
方法进行融合,对原始文档集进行子语段和伪语段的切分和重构,使得同类特征之间的
合理共现现象增强,不同类特征之间的不合理共现现象得以削弱,有效地优化了潜在语
义分析技术。
基于对语段融合优化的潜在语义分析技术的研究,本文将基于语段融合的优化技术
应用于 LSA 专利分类系统。经过多种方法的融合,分类正确率较之传统的潜在语义分
析技术高出 %。
关键词:潜在语义分析;语段;子主题;特征抽取;文本分类
I
沈阳航空航天大学硕士学位论文
Abstract
As a technique of data mining based on statistic, Latent Semantic Analysis is widely
applied in many fields, such as Information Retrieval and Text Categorization. By optimizing
the Vector Space Model, this technology has good effect on extracting p