文档介绍:摘要关键词:数字图书馆;资源管理;知识发现;数据挖掘;算法设计针对数字图书馆下的信息资源组织建设问题,论文从信息资源的管理方法及网络信息的数据挖掘技术两个方面进行了研究。首先从信息资源数字化、多媒体化、网络化等方面分析了数字图书馆信息资源的特点及现行编目方法在网络信息资源描述方面的局限性,并在此基础上阐述了用于数字图书馆信息资源描述的元数据方法;阐述了元数据的定义、类型、结构、编码语言等基础理论;研究了元数据的互操作性。对典型元数据方案都柏林核心集的应用进行了分析,探索了都柏林核心集元素的格式与应用;比较了都柏林核心集与现行编目方法的异同;并对网络信息资源的整序问题进行了讨论。在网络信息的数据挖掘技术方面,针对传统向量空间模型存在的不足,运用模糊数学相关概念构造了模糊特征向量空间模型,提出了文档模糊特征提取及模糊特征向量的构造方法;提出了基于模糊向量空间模型的三种聚类算法:稻劾嗨惴ā⒑司劾嗨惴ā⒒谝先褐悄艿木劾嗨惴āF渲校琄均值聚类算法与核聚类算法需要预先给定聚类数目,通过不断迭代修正聚类中心,使聚类趋于稳定和精确;蚁群聚类算法无需预先给定类数,而是依据文档相似度,让蚁群携带文档移动。蚁群合作可表现出高度智能性,可以较好的完成聚类任务。应用人工智能领域的模糊逻辑、神经网络、机器学习等理论,提出了三种文档信息资源的自动分类方法:基于加权模糊推理网络的文档自动分类算法;基于自组织特征映射网络的文档自动分类算法;基于级联式支持向量机的文档自动分类算法。前两种算法首先依据已知类别的若干分类样本,构造满足输入输出关系的分类网络,然后应用不同的迭代算法完成网络的训练。加权模糊推理网络采用高斯一塞德尔迭代法求解满足输入输出映射关系的一组权系数。自组织特征映射网络采用无教师和有教师相结合的方式获得网络的分类能力。支持向量机分类算法具有较高的泛化性能,但是只能处理两类模式分类问题,级联式支持向量机可处理多个模式的分类。以上每种算法均给出了详细的分类原理和实施方案,实验部分证明了算法的有效性及可行性。最后,论文提出了加强数字图书馆管理及知识发现的一些对策。环境下的信息资源管理及知识发现研究
哈尔滨工程大学博士学位论文畉瑃甌.,,.,琭瑃簁甼縰,篹甌瓵琻,篸,—:篟::.縠
作者┳:盗兰馥掐哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。日期:ぃ阥月
,知泌和信息的传播、再生将日益频繁、迅速,信息量因此日益丰富,数据量骤增。荚国新泽西州芯克吐姿购吉尔斯在年找黄诿拦犊蒲А吩又旧戏⒈硌芯拷峁赋觯特网上超文本文件数目可能大大高出人们原先的估计,作为全球最大的信息资源库,因特网上超文本文件总数已达亿。根据目前更新的统计数字,因特网上的网页己达谝持唷C娑匀绱朔嵩⒌男畔ⅲ没б环矫婢O灿信息量的丰富,另一方面,迷失在信息的海洋中,无所适从。他们面临着极大的困惑:。起到了相当重要的作用,然而,最佳搜索引擎所能覆盖的网页仅占全球网页的%。目前,世界已经发展到知识经济时代。知糜胍酝呐┮稻谩⒐业经济最大的不同在于经济的发展将极大程度的依赖于知识的传播与创新。因此,在知识经济环境下,信息成为社会发展的重要支柱之一。在计算机和网络高速发展的今天,信息化网络无疑是知诌梅⒄沟囊劳校畔⒒络的核心是信息源,即数字图书馆。将来的决策网络和应急知识网络,毫无疑问,是数字图书馆。数字图书馆是知识经济社会的基础没旖和知识环境。它通过集成和利用最新的计算机技术、通信技术及数字化内容,建成超大规模、可扩展的、可互操作豹知识库集群。数字图书馆是面向二十~世纪的因特网,采用现代高新技术、有序组织的信息资源,是高效满足用户需求、有效保护知识产权、更好地共享全球的知识资源。目前,,但也存在着大量的垃圾;同时,由于互联网的刀:放性、自由性和灵活性,网上的信息杂乱无章,难以组织和管理,使用极为不便。同时,网终知识版权
.畚难芯康哪康募耙庖有价值的信息却越来越少。因此,挖掘大量数据信息背后隐藏的价值成为人息才是用户的实际需要,即要实现智能化的信息服务。这也是数字图书馆系统建设中必须考虑的一个关键。源建设,其宗旨是要加强信息技术在信息服务中应用的力度,在信息资源的数字化、服务方式的网络化