1 / 66
文档名称:

基于潜在语义分析的专利文献分析与搜索技术的研究.pdf

格式:pdf   页数:66页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的专利文献分析与搜索技术的研究.pdf

上传人:你是我的全部 2015/9/6 文件大小:0 KB

下载得到文件列表

基于潜在语义分析的专利文献分析与搜索技术的研究.pdf

相关文档

文档介绍

文档介绍:浙江大学计算机科学与技术学院
硕士学位论文
基于潜在语义分析的专利文献分析与搜索技术的研究
姓名:徐元浩
申请学位级别:硕士
专业:计算机应用技术
指导教师:孙守迁;孙凌云
20100101
摘要专利文献包含重要的研究成果,内容广泛新颖,技术细节描述详细,是世界上最新技术信息的重要来源。专利文献的有效分析对提高企业市场竞争力至关重本文在分析国内外现有专利分析技术的基础上,研究如何使用文本挖掘技术对中文专利文献进行分析,采用潜在语义分析和���缦嘟岷系姆椒ǘ宰ɡ��行聚类,并开发相应的专利搜索软件平台。目前还没有公开的中文专利文本语料库,本文介绍了从专利网站上自动下载专利文献全文的程序设计流程,并通过文本预处理建立语料库。专利文献晦涩难懂,其中还参杂了不少专业词汇术语,由于专利文献的特殊性,传统的中文分词技术作用于专利文献结果一般,因此本文设计了新的算法对专利新词进行识别,完善补充分词结果。文本聚类有助于专利分析人员更好地分析专利文献,传统的聚类方法只能应用维数较低的对象,面对维数高达上千维的专利文本,聚类方法无法获得良好的结果。文本采用了潜在语义分析的方法对专利文本进行降维,可以达到在维数降低的同时也保证了原本的语义空间结构的效果。最后对专利文本使用���缃�行聚类,实验结果表明降维后的文本在聚类时间上的开销小于未降维的文本,并且聚类结果良好。常规的专利检索只能针对专利摘要进行关键字检索而无法对专利全文进行检索,摘要字数有限并不能完全代替全文的内容。本文基于���开发了专利全文检索系统,采用倒排索引结构对专利全文进行索引,加快了检索速度。根据检索词查询相关专利,系统能够按照查询内容与检索结果文档的相关度对结果进行排序,相关度高的出现在前面,可以有效减少用户浏览专利文档的数量,提高要。工作效率。浙江大学硕士学位论文
关键词:专利分析,文本挖掘,潜在语义分析,文本聚类,专利搜索浙江大学硕士学位论文摘要
瑃������琣�����.���������琤����,�����.������������.���.�����������������猟����������瓻��������,���浙江大学硕士学位论文����瑃����瓻�������瑃������篣������������甌������瓺���.����,���������甌�������甌����.��.�����
,�����������浙江大学硕士学位论文����,�����,������������,��������
图目录图����蟮乃饕�钜痪卣笸肌�������������������图��索引项一文档矩阵⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..�图��文本挖掘流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图��专利词汇地形图实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图��专利引用关系图实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图����’�焖饕趁妗������������������������图��中国国家知识产权局专利检索页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..�图��专利新词识别流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。�图��专利说明书⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。�图����卣蠓纸馔肌������������������������图��矩阵��纸饨峁����������������������图�����缤仄送肌�������������������������������图����谋揪劾嗨惴�鞒獭���������������������图���鶶�聚类结果图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..���甐�实验结果图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图��系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图�����结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.�图��倒排索引图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图��索引创建流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图��检索基本框架图⋯。⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�图��检索流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。�图��专利搜索首页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..�图��搜索结果页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。�浙江大学硕士学位论文���
表目录表��构词能力表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..�表��专利新词识别实验部分新词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..�表��文本实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯�表��专利文本聚类实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯