1 / 68
文档名称:

基于潜在语义分析的专利文献分析与搜索技术的研究.pdf

格式:pdf   大小:2,819KB   页数:68页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的专利文献分析与搜索技术的研究.pdf

上传人:陈潇睡不醒 2021/3/28 文件大小:2.75 MB

下载得到文件列表

基于潜在语义分析的专利文献分析与搜索技术的研究.pdf

相关文档

文档介绍

文档介绍:浙江大学计算机科学与技术学院
硕士学位论文
基于潜在语义分析的专利文献分析与搜索技术的研究
姓名:徐元浩
申请学位级别:硕士
专业:计算机应用技术
指导教师:孙守迁;孙凌云
20100101
摘要专利文献包含重要的研究成果,内容广泛新颖,技术细节描述详细,是世界上最新技术信息的重要来源。专利文献的有效分析对提高企业市场竞争力至关重本文在分析国内外现有专利分析技术的基础上,研究如何使用文本挖掘技术对中文专利文献进行分析,采用潜在语义分析和缦嘟岷系姆椒ǘ宰ɡ行聚类,并开发相应的专利搜索软件平台。目前还没有公开的中文专利文本语料库,本文介绍了从专利网站上自动下载专利文献全文的程序设计流程,并通过文本预处理建立语料库。专利文献晦涩难懂,其中还参杂了不少专业词汇术语,由于专利文献的特殊性,传统的中文分词技术作用于专利文献结果一般,因此本文设计了新的算法对专利新词进行识别,完善补充分词结果。文本聚类有助于专利分析人员更好地分析专利文献,传统的聚类方法只能应用维数较低的对象,面对维数高达上千维的专利文本,聚类方法无法获得良好的结果。文本采用了潜在语义分析的方法对专利文本进行降维,可以达到在维数降低的同时也保证了原本的语义空间结构的效果。最后对专利文本使用缃行聚类,实验结果表明降维后的文本在聚类时间上的开销小于未降维的文本,并且聚类结果良好。常规的专利检索只能针对专利摘要进行关键字检索而无法对专利全文进行检索,摘要字数有限并不能完全代替全文的内容。本文基于开发了专利全文检索系统,采用倒排索引结构对专利全文进行索引,加快了检索速度。根据检索词查询相关专利,系统能够按照查询内容与检索结果文档的相关度对结果进行排序,相关度高的出现在前面,可以有效减少用户浏览专利文档的数量,提高要。工作效率。浙江大学硕士学位论文
关键词:专利分析,文本挖掘,潜在语义分析,文本聚类,专利搜索浙江大学硕士学位论文摘要
瑃琣.琤,...猟瓻,浙江大学硕士学位论文瑃瓻瑃篣甌瓺.,甌甌..
,浙江大学硕士学位论文,,,
图目录图蟮乃饕钜痪卣笸肌图索引项一文档矩阵⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图文本挖掘流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图专利词汇地形图实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图专利引用关系图实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图’焖饕趁妗图中国国家知识产权局专利检索页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图专利新词识别流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图专利说明书⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图卣蠓纸馔肌图矩阵纸饨峁图缤仄送肌图谋揪劾嗨惴鞒獭图鶶聚类结果图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..甐实验结果图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图倒排索引图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图索引创建流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图检索基本框架图⋯。⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图检索流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图专利搜索首页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图搜索结果页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。浙江大学硕士学位论文
表目录表构词能力表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表专利新词识别实验部分新词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表文本实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯表专利文本聚类实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。表包结构功能表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯浙江大学硕士学位论文
第滦髀课题背景在这信息爆炸的年代,科技日新月异,每天都有许多新产品面世,海量资讯对于产品的开发带来了方便。专利文献内容广泛新颖,技术细节描述详细,是世界上最新技术信息的重要来源。据世界知识产权组织统计,世界上的新技术、新发明,有%至%记录在专利文献中,而专利公报约有%的内容,未曾刊载于其它专业期刊或学术论文等技术文献资料中【俊R虼嗽诳7⑿虏非埃亩链罅的专利显得格外重要,以避免在研发过程中侵犯了他人的知识产权。专利信息的实际应用价值在技术、法律、经济和贸易方面均有体现。在技术方面的价值最为突出,日本知识产权研究所曾就知识产权的经济效果等问题,对三百多家企业进行过问卷调查,结果表明,许多企业认为知识产权分权制度所带来的最