文档介绍:首都经济贸易大学
硕士学位论文
基于数据挖掘技术的专利信息分析及应用研究
姓名:罗璇
申请学位级别:硕士
专业:管理科学与工程
指导教师:张军
2011-03-10
首都经济贸易大学硕士学位论文《基于数据挖掘技术的专利信息分析与应用研究》
摘要
专利信息是最新的科技发展水平的集合,具有内容新颖、覆盖面广、实用可靠、
信息量大等显著特点,在国家政府机构的决策、技术创新、资源的配置、科技项目的
规划、行业的发展方向、企业的经营决策等各方面都拥有巨大的价值及潜在价值。传
统的统计分析方法已经不能满足人们开发利用专利信息资源的需求,集成了多种学科
技术的数据挖掘成为了专利信息分析法的必然发展趋势。
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学研究领域的重
要研究课题之一,相关的研究和应用能够提高决策支持的能力,在数据库研究中是一
个富有应用前景的领域。数据挖掘已经广泛应用于诸多领域以解决许多商业问题,并
且取得了良好的社会效应。
由于专利信息的特殊性——同时具有外部特征项和内部特征项,既有需要进行定
量分析的外部指标,又有需要定性分析的文本内容,所以作为数据挖掘技术重要技术
手段的关联分析和文本聚类有着非常广泛的应用前景。关联规则挖掘是从大量的、不
准确的、嘈杂的现实数据中挖掘出隐含在其中的、潜在的有价值的相关信息和知识的
过程。文从 Agrawal 等人第一次提出了基于商业数据库的项集之间的关联关系研究
问题以来,很多研究人员对挖掘数据中潜在的关联规则问题进行了大量的更加深入的
研究。本聚类首先需要对文本进行预处理,通过分词、特征选择或特征抽取等过程将
文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。层
次聚类方法对给定的数据集进行层次似的分解,直到某种条件满足为止。相较于另一
种较为常见的聚类算法——以 k-means 和 k-medoids 为代表的划分方法而言,层次聚
类法不需要预先指定聚类的个数,更有利于在不清楚数据属性的情况下进行文本聚
类。
在数据挖掘技术的应用方面,本文面向专利信息挖掘应用的实际需求,分析了专
利文献的应用及其用途,研究了专利技术、专利文献的自身特点,以及专利文献蕴涵
的丰富的技术信息、法律信息和商业信息,寻找将数据挖掘技术应用到专利文献中的
途径。并以混合动力电动汽车领域在中国境内专利申请情况为主要背景,在行业研究
的基础上,利用数据挖掘技术中的关联规则挖掘和文本聚类分析相结合的方法对丰田
自动车株式会社在华申请的所有专利进行了深入分析,将数据挖掘的方法和知识理论
应用到实际系统中,实现了专利文本信息与技术主题指标相结合,并为今后的专利信
息挖掘工作提出了几点建议。
关键词:数据挖掘聚类分析关联分析混合动力电动汽车
I
首都经济贸易大学硕士学位论文《基于数据挖掘技术的专利信息分析与应用研究》
Abstract
Due to the publication of patent documents, the public will stand to gain from the
technical knowledge of inventions because of the published information in these
documents. Therefore, patent information is a very useful resource of technical knowledge
for researchers, engineers and scientists who are involved in the work panies,
research institutes and governments. Moreover, data mining id believed to be the trend of
the techniques used to exploit patent information. As the most form of patent information
id text, text clustering which is one of the most important data mining operations has very
high applied values.
Data mining technology is an effective approach to resolve the problem of abundant