文档介绍:密级
沁乒, 次掌
硕 士 学 位 论 文
论文题 目 基于潜在语义分析的专利文献分析
与搜索技术的研究
作者姓名 徐元浩
士匕 已 主卉 不 二 、竺戈 丰 决行乡萝
日 一亡 刁二凡 , ' 飞, ' 、 洲写旨 士沐 刁人
孙凌云 助研
学 科 专 业
所在 学 院
提交 日期 … 年 月
A D issertation Subm itted to Zhejiang
U n 1v er s it y f or th e D e g r e e o f
M a 5 t e r o f E n g in e e r in g
T IT L E : R e s ea r eh o f P a t e n t D o eu m e n t
A u t h o r : X u Y u a n h a o
S u P e r v i so r : P r o f e s s o r S u n S h o u q ia n
Sub je et :
C o l l e g e :
S u b m it t e d D a t e :
浙江大学硕士学位论文 摘 要
摘要
专利文献包含重要的研究成果, 内容广泛新颖, 技术细节描述详细, 是世界上
最新技术信息的重要来源 。 专利文献的有效分析对提高企业市场竞争力至关重
要 。
本文在分析国内外现有专利分析技术的基础上, 研究如何使用文本挖掘技术
对中文专利文献进行分析, 采用潜在语义分析和 网络相结合的方法对专利进
行 聚类 , 并 开发相 应的专利搜索软件平 台 。
目前还没有 公开的中文专利文本语料库 , 本文介绍 了从专 利网站上 自动下载
专利文献全文的程序设计流程, 并通过文本预处理建立语料库 。专利文献晦涩难
懂, 其中还参杂了不少专业词汇术语, 由于专利文献的特殊性 , 传统的中文分词
技术作用于专利文献结果一般, 因此本文设计了新的算法对专利新词进行识别,
完善补充分词结果 。
文本聚类有助 于专利 分析人员更好地分析 专利文献 , 传统 的聚类 方法只能