文档介绍:基于主题的Web挖掘技术在航天情报跟踪中的应用研究
曹志杰
(中国科学院国家科学图书馆, 北京 100080;北京航天长征科技信息研究所, 北京 100076)
摘要: 分析了航天领域互联网信息获取需求,总结了基于特定主题Web挖掘技术的优势及现状,论证了将基于主题的Web挖掘技术应用于航天情报跟踪的可行性,初步设计了跟踪系统组成模块,提出了关键问题解决方案。
关键词: Web挖掘; 特定主题; 情报跟踪; 情报研究
中图分类号: 文献标识码:A 文章编号:
Study on specific subjects Web Mining Technology for Space Intelligence Research
CAO Zhi-jie
(Library of Chinese Academy of Sciences,Beijing 100080,China;Institute of Beijing Aerospace Long March Scientific and Technical Information,Beijing 100076,China)
Abstract: This paper analyses the Web information requirement of space science & technology intelligence research, list the advantages and progress of specific subjects Web mining technology, points out the feasibility of developing specific subject Web mining system for space intelligence, gives the preliminary system design and corresponding algorithm.
Key words:Web mining; specific subject; SDI; intelligence research
航天工业技术含量高,对科技情报的需求不仅数量大、专业性强,且在新颖性、及时性、完整性和准确性方面的要求也高于一般企业。这些信息的获取除了依靠航天科技报告、美国政府出版物等技术资料外,互联网也是一个巨大的信息库。
然而Web资源的庞大、异构和动态性,使得特定信息的获取十分困难,将基于主题的Web挖掘技术引入航天情报跟踪过程的探索正是在这种背景下产生的。
1 航天领域情报跟踪需求
航天领域的情报跟踪需求主要来自两个方面,一是各级专职情报研究机构对特定主题的情报跟踪需求,另一方面是从事航天设计制造的一线技术人员对专业技术的情报需求。专职情报研究机构在情报跟踪中最关心的问题是如何在获取相关性高、新颖、正确且有序的互联网数据的同时降低跟踪成本,将主要精力放在信息的分析与加工上。同时,还希望能将感兴趣的信息分类存储,提供检索和格式转换等便于使用的功能。技术人员对专业情报的需求与情报研究机构相似,但信息需求总量相对较少,因而各项要求相对简单。
根据调查可知(参见表1),不论是专职情报研究机构还是个人用户都希望能够高效地通过互联网获取