1 / 56
文档名称:

基于潜在语义分析的专利文本分类技术研究.pdf

格式:pdf   大小:1,117KB   页数:56页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的专利文本分类技术研究.pdf

上传人:陈潇睡不醒 2021/10/9 文件大小:1.09 MB

下载得到文件列表

基于潜在语义分析的专利文本分类技术研究.pdf

相关文档

文档介绍

文档介绍:摘 要
专利分类可以加快对专利文献的检索速度,方便对专利文献的管理,有着十分重要
的作用。近几年,自然语言处理以及信息检索技术的发展,为解决专利分类任务提供了
强大的方法论武器,如何根据专利分类任务的特殊性选择合理的解决方法成为提高分类
系统性能的关键。
大量研究表明,在专利分类任务中,数据稀疏问题一直是影响专利分类性能的主要
障碍;除此之外,专利的类别体系是一个多层次的树形结构,同一父节点下的子类样本
之间相似性较大,因此,加剧了专利的分类难度。本文针对专利的上述特点提出基于潜
在语义分析的专利自动分类技术,它利用奇异值分解,把大量共现或相关的特征映射到
潜在语义空间的同一维上,深度挖掘出原始特征-文档矩阵的潜在关系;通过降维,把
原始的高维空间投影到低维的语义空间,在保证原始特征文档矩阵最有效的语义关系的
同时,尽可能地压缩了无效的、无关的噪声信息,从而保证了K维空间的丰富的语义特
征,是一种有效解决数据稀疏问题的手段。
针对分类任务的特殊性,本文结合专利文本的类别信息还提出基于类别信息指导的
潜在语义分析优化方法,通过增强相同类内的特征共现程度获得更准确的潜在语义空
间,使得相同类别专利文本之间的相似性更明显,从而提高专利分类的性能。
本文基于NTCIR-8专利分类评测的平台,在美国专利语料上实现基于潜在语义分析
的专利自动分类系统,并以基于共享最近邻的专利分类系统为参照,针对专利分类任务
中的主要问题和核心技术做了相关试验,并做了详细的试验结果分析,最终实现了可靠
的专利自动分类系统。



关键词:LSA;共享最近邻;BM25;专利分类
I
Abstract
Patent Classification can quicken the retrieval speed of patent documents and facilitate
the management of them, so it plays an important role. In recent years, the development of Natual
Language Processing and Information Retrieval technology provides new methodology for patent
classification task, and how to choose a reasonable resolution based on the particularity of
patent classification task is the key to improve the performance of classification system.
Research has shown that data sparsity is always the obstacle influencing the performance
of patent classification; besides, the class system of patent is a multilayer tree struct, and
samples under the same parent node are very similar to each other, so patent classification
becomes more difficult. Aiming at the above characteristics of patent, this paper presents a
Patent Automatic Classification Technology based on Latent Semantic Analysis(LSA). This
technology uses Singular Value Decomposition to deeply mine the latent relationship between
the original characteristics and the document matrix by mapping co-occurrence or interrelated
characteri