文档介绍:江苏农业学报饴.,,:~
黄水清,张涛,,,:—
农业经济领域非相关文献知识发现用数据集的构建
黄水清, 张涛, 杨东清
南京农业大学信息学院,江苏南京
摘要: 在分析国内外已有的非相关文献知识发现用数据集的基础上,研究构建用于非相关文献知识发现的
农业经济领域数据集的可行性。运用软件技术辅之于少量人工干预的方法,构建出完整的农业经济学领域非相关
文献知识发现用数据集,包括汉语文献题录库和完整的词表体系。通过实证研究,发现条农业经济领域的新知
识,验证了该数据集的正确性和可用性。
关键词: 知识发现;非相关文献;汉语文献;农业经济;数据集
中图分类号: , 文献标识码: 文章编号: —
·
—, , —
,,,
: —
,.
,—
.
,,—
.
: ; ; ; ;
知识发现思想的可行性与正确性。的思
非相关文献知识发现
想在学术界产生了广泛的影响,各个领域的研究人员
知识发现技术产生于人们“被数据淹没,却饥包括本人在以后的二十多年中对非相关文
渴于知识”的尴尬现状,并伴随着这种现象渐严献知识发现的理论基础、算法模型及具体应用进行了
峻而得以蓬勃发展。知识发现技术中基于文献的知持续、深入地研究。但在汉语社会科学文献中,至
识发现也于上世纪八十年代得以诞生。今还没有非相关文献知识发现的成功实践。
年,提出了非相关文献知识发现的理论可以归纳为:设有概念、和
的思想,并以充分的文献证据论证了基于非相关文献,若文献组报道了和之间有意义的关联,
文献组报道了和之间的关联,但已知文献
收稿日期: 中没有任何文献报道和之间的关联,则和
作者简介:黄水清一,男,江西宜黄人,硕士,教授,主要从事计被称为“互补”文献,并称与通过存在关
算机信息检索技术研究。—.. 联。与的关联只有把和放到一起考查才
黄水清等:农业经济领域非相关文献知识发现用数据集的构建
能得出,而单独考查和则得不到这种关联。非相关文献知识发现的思想最初产生于医学、
和之间的关联为新知识的发现提供了线索。生物学领域,直到现今绝大多数研究者也仍以医学、
生物学领域作为非相关文献知识发现算法的文献
国内外非相关文献知识发现用数据
源。在医学、生物学领域,以为代表的文献
集的建设数据库标引质量很高,为开展非相关文献知识发现
所谓非相关文献知识发现用数据集,即非相关工作提供了极大的便利。因此,国外医学、生物学领
文献知识发现过程用到的数据对象,包括文献库和域的非相关文献知识发现,都直接以数据
词表。文献库即用于非相关文献知识发现的文献集库为文献集合,采用词表,部分算法用到了
合,根据知识发现对象不同包括文献的题名、摘要、,个别用到了、、等数据
全文和引文。词表即知识发现过程中用到的各种词库中的词汇。表列出了几种有影响力的非相关文
表,包括停用词词表、通用词表、专业词表和同义词献知识发现算法的数据集。
表等。
表非相关文献知识发现用数据集基本情况对照表
·—
从表可以看出,所有算法的文献集合都采用学。农业经济学就属于这样的学科。
,大部分算法