1 / 57
文档名称:

应用文本挖掘分析生物医药领域专利热点的方法研究.pdf

格式:pdf   页数:57
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

应用文本挖掘分析生物医药领域专利热点的方法研究.pdf

上传人:numten7 2014/2/24 文件大小:0 KB

下载得到文件列表

应用文本挖掘分析生物医药领域专利热点的方法研究.pdf

文档介绍

文档介绍:中国科学技术信息研究所
硕士学位论文
应用文本挖掘分析生物医药领域专利热点的方法研究
姓名:艾志昂
申请学位级别:硕士
专业:情报学
指导教师:罗勇
2011-05
应用文本挖掘分析生物医药领域专利的方法研究
摘要
专利的发明,制度的实施,专利的利用和保护,已经逐渐成为一个国家综
合实力的重要特征。专利信息反映了最前沿的科学技术发展状况,具有信息完
整,覆盖面广,可靠性强,信息量大等显著特点。因此对专利信息数据库中数
据的统计分析也变得尤为重要。
本文从生物医药领域的专利信息分析出发,从专利的基本概念开始,阐述
了相关专利信息的组成及研究价值,通过调研文本挖掘应用于专利分析的各种
方法,利用已有的分词工具把近二十年的 USPTO 的生物医药领域共 15415 条专
利的标题进行分词,然后通过人工清洗,删除那些无关词、词频很高但是不具
代表性的词、和大量的停用词等处理形成词库,利用 DEIPHI 语言编写软件,
计算每个词在每条专利中的 TF-IDF 值,并通过设定 TF-IDF 值和每个词在专利
中出现的词频数共得到样本数据 890 条专利和 312 个词,在 Excel 中通过 VBA
构建了一个多维度相似度矩阵并导入 Spss Clementine 软件中通过 K-means 算法
进行聚类,将获得的 5 个聚类结果与 IPC 及 USPC 分类的结果进行横向比较,
分析探讨对专利信息进行文本挖掘的应用方法以及专利聚类的成效。
从试验结果看,本文采用的文本挖掘及进行自动聚类的分析方法,对于不
同 IPC 或 USPC 类别专利的聚类效果有所不同。尽管聚类结果不是非常的理想
且由于样本数据量的限制而可能缺乏广泛的代表性,但是利用此方法通过扩大
文本挖掘的范围并根据聚类效果不断调整词库中那些效果不理想的专利类别的
关键词汇,是有可能改善聚类结果,获得一个比较实用的利用文本挖掘和自动
聚类开展专利文献分析的参数体系和方法的。

全文图 15 幅,表 16 个,参考文献 39 篇,其中英文参考文献 10 篇。

关键词:文本挖掘;生物医药;文本聚类

分类号:;G305
I
Methods of Analysis of Biological Pharmaceutical Patent Hot Spots
by Text Mining
Abstract
The invention,utilization and protection of patent and the implementation of its
institution is now ing an important feature of prehensive strength.
With the outstanding features of the integrity of information, the widely coverage
and the reliability, the patent information reflects the forefront of the development of
the science and technology, so the statistic analysis of the data in patent information
database is also an important matter.
Based on the patent information of the biomedical field, this thesis expounded
the basic concept of patent and the constitution and value of research of related
patent information. After surveyed various methods of text mining that used in patent
analysis,Iimplement the segmentation by segment the 15415 patent titles in the
biomedical field of the USPRO in the recent twenty years by using the existing
segmentation tools, then delete the irrelevant words, the words h